咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向国产申威26010众核处理器的SpMV实现与优化 收藏

面向国产申威26010众核处理器的SpMV实现与优化

General SpMV Implementation in Many-Core Domestic Sunway 26010 Processor

作     者:刘芳芳 杨超 袁欣辉 吴长茂 敖玉龙 LIU Fang-Fang;YANG Chao;YUAN Xin-Hui;WU Chang-Mao;AO Yu-Long

作者机构:中国科学院软件研究所并行软件与计算科学实验室北京100190 中国科学院大学北京100049 计算机科学国家重点实验室(中国科学院软件研究所)北京100190 北京大学数学科学学院北京100871 国家并行计算机工程技术研究中心北京100190 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2018年第29卷第12期

页      面:3921-3932页

核心收录:

学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划(2016YFB0200603) 国家自然科学基金(91530323) 

主  题:稀疏矩阵向量乘 SpMV 申威26010处理器 异构众核并行 自适应优化 

摘      要:世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分