版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:中国科学院成都计算机应用研究所成都610041 中国科学院大学北京100049
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2018年第38卷第A02期
页 面:192-195页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
基 金:四川省科技厅科技成果转化项目(2014CC0043) 四川省科技创新苗子工程项目(SCMZ2006012)
主 题:数据倾斜 MapReduce 连接算法 负载均衡 数据统计
摘 要:针对MapReduce计算框架不能直接支持连接操作以及在数据倾斜情况下的连接操作会造成某一个或者某几个reducer负载过重降低集群性能的现状,提出了数据倾斜连接算法(DSJA)。该算法首先对关系表中连接键出现的频率进行统计,得到倾斜连接键和非倾斜连接键以及它们各自连接后产生的结果数量;其次按照结果数量的比例分配将集群中的reducer分为处理倾斜连接的reducer和处理非倾斜连接的reducer;最后将倾斜数据平均地发送到处理倾斜数据的reducer以此实现负载均衡。通过与传统的哈希算法进行比较,DSJA的执行时间在数据倾斜度、数据量和集群中reducer个数三个方面都较少,尤其是在数据集中只出现一个属性值的倾斜的时候。