咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >数据倾斜情况下基于MapReduce的连接算法 收藏

数据倾斜情况下基于MapReduce的连接算法

Join algorithm based on MapReduce for data skew

作     者:马清山 钟勇 王阳 MA Qingshan;ZHONG Yong;WANG Yang

作者机构:中国科学院成都计算机应用研究所成都610041 中国科学院大学北京100049 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2018年第38卷第A02期

页      面:192-195页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

基  金:四川省科技厅科技成果转化项目(2014CC0043) 四川省科技创新苗子工程项目(SCMZ2006012) 

主  题:数据倾斜 MapReduce 连接算法 负载均衡 数据统计 

摘      要:针对MapReduce计算框架不能直接支持连接操作以及在数据倾斜情况下的连接操作会造成某一个或者某几个reducer负载过重降低集群性能的现状,提出了数据倾斜连接算法(DSJA)。该算法首先对关系表中连接键出现的频率进行统计,得到倾斜连接键和非倾斜连接键以及它们各自连接后产生的结果数量;其次按照结果数量的比例分配将集群中的reducer分为处理倾斜连接的reducer和处理非倾斜连接的reducer;最后将倾斜数据平均地发送到处理倾斜数据的reducer以此实现负载均衡。通过与传统的哈希算法进行比较,DSJA的执行时间在数据倾斜度、数据量和集群中reducer个数三个方面都较少,尤其是在数据集中只出现一个属性值的倾斜的时候。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分