版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:新疆财经大学统计与信息学院新疆乌鲁木齐830012 新疆大学信息科学与工程学院新疆乌鲁木齐830008 新疆医科大学医学工程技术学院新疆乌鲁木齐830011 清华大学软件学院北京100084
出 版 物:《中山大学学报(自然科学版)》 (Acta Scientiarum Naturalium Universitatis Sunyatseni)
年 卷 期:2017年第56卷第3期
页 面:46-56页
核心收录:
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
基 金:国家自然科学基金(61562078 61262088) 新疆维吾尔自治区自然科学基金(2016D01B014) 新疆财经大学博士启动基金(2015BS007)
主 题:协同过滤 MapReduce Spark 算法优化 能耗优化
摘 要:大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析。结合Spark适于迭代型及交互型任务的特点,提出将算法从MapReduce平台移植Spark平台的改进思路。设计了算法在Spark中的实现流程,并通过参数调整、内存优化等方法进一步提高算法效率。实验结果表明:与MapReduce平台中的算法相比,基于Spark DAG调度的算法能够减少65%以上的HDFS重复I/O操作,执行效率与能耗效率分别提升近200%及50%。