版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:中国科学院研究生院
学位级别:硕士
导师姓名:田荣
授予年度:2011年
学科分类:07[理学] 08[工学] 070102[理学-计算数学] 0701[理学-数学] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:GPGPU加速算法 混合精度算法 有限元 并行计算 线性方程组 迭代改进
摘 要:长期以来,单精度似乎与科学计算无缘,在能够使用双精度的情况下科学计算一般不会使用单精度。然而从体系结构看,混合精度计算可以充分发挥向量部件、异构多核、GPGPU设备突出的单精度性能,同时提供更高效能,如降低通讯带宽要求、提高数据传输和通讯效率、提高cache利用率、降低能耗等。\n 1948年威尔金森设计制造图灵计算机时提出求解线性方程组的迭代改进(iterative refinement)。迭代改进的基本思想是通过对线性方程组的近似解用低精度反复迭代求解,通过高精度对近似解的余量进行改进修正,从而将最终解的近似误差减少到机器精度的一种算法。\n 这一古老算法近年来随着高性能单精度加速部件和多核处理器的出现开始引起人们的广泛关注,并萌生了“混合精度计算的思想,即通过对计算密集部分主要采用低精度、少量关键步骤采用高精度从而达到计算加速的一种策略。\n 本文发展了一种混合精度显格式有限元算法,结合课题组的材料强非线性多尺度模拟程序msFEM,实现了GPGPU上的有效加速。实验结果表明:混合精度显格式有限元实现了90%以上的有限元计算通过单精度完成而计算结果与全部使用双精度结果相一致的效果。该算法可以使得在不支持双精度浮点格式的加速卡上,实现双精度计算功能。在支持双精度浮点格式的GPU上,混合精度算法又可以将全部双精度计算的加速比进一步提高1.6-1.7倍。与单核CPU双精度算法相比,双精度显格式有限元GPU加速算法在核心计算部分(应力、节点力求解,约占90%的计算量)的加速比为134,混合精度显格式有限元GPU算法的加速比为224倍;双精度显格式有限元GPU算法在包括力向量求解、组装、加速度、速度、位移更新等全部环节的整体加速比为14,混合精度显格式有限元GPU算法的加速比为20倍。