基于壳单元理论的有限元分析方法广泛应用于汽车车身的CAE分析,在本文中主要用于解决板壳结构的非线性问题和板料冲压成形的仿真计算问题。随着有限元模型越来越复杂,仿真过程中需要处理庞大的计算量,所以计算仿真的效率较低。由于强大的数据处理能力,基于GPU的并行计算方法早已用于解决仿真分析中计算效率低的问题。但是,单个GPU受到硬件资源的限制,无法满足大规模计算的需求。当前的异构计算平台能够配置2-4块GPU设备,单机多路GPU的计算平台突破了单个GPU硬件资源的限制。本文主要工作就是将基于单机多路GPU的并行技术应用于解决薄壳结构的动态非线性问题和板料的冲压成形的仿真问题。具体的工作与成果如下:(1)在调用多个GPU对有限元模型进行仿真计算之前,合理的对有限元网格模型进行区域分解是相当重要的。本文基于METIS开源库开发了适用于本文算法的数据分区预处理系统从而实现了有限元网格数据的快速区域分解。该系统有两个优点:一是各子区域的计算量均衡,二是各区域间的边界点数量较小。(2)使用OpenMP和统一计算架构(CUDA)的混合编程模型实现了有限元显式求解的多GPU并行计算方法,并开发了具有自主知识产权的基于多GPU并行的车身结构分析软件。并行实现的大致思路分两方面:一方面为基于OpenMP模式CPU线程级并行,另一方面为基于CUDA架构的GPU轻量级线程并行。前者主要是通过开辟与GPU设备数量相同的CPU线程数,一个CPU线程控制着一个GPU设备的启动与挂起。后者则主要是通过建立GPU线程与单元、节点、自由度的抽象映射关系,从而实现基于BT壳单元理论的显式迭代求解部分在多GPU上全过程处理。(3)在基于预索引策略的节点内力组装过程中,在处理百万级单元规模的有限元模型时,计算的循环量达到万亿级别,耗时相当严重。因此,本文对此预索引策略加以改进,同样处理百万级单元规模的有限元模型时,计算的循环量则只有千万级别,从而降低了算法的时间复杂度,明显的缩短了索引时间。对板壳非线性问题进行数值仿真,计算的结果表明,本文提出的基于多GPU的并行计算方法能满足工程问题的精度要求,并且计算效率得到了明显的提升。在四路Titan Xp GPU工作站上对10,889,568自由度的车身弹性变形问题进行求解时,四路GPU的计算绝对加速比可达73倍,相对加速比可达3.4,非常接近理论值。(4)本文提出了适用于板料冲压成形仿真计算的多GPU并行计算方法。针对显式迭代过程中的求解特征,提出了包括弹塑性材料本构的单元计算的多GPU并行计算方法以及接触力求解的GPU并行计算方法,实现了板料冲压成形仿真的显式迭代过程的全流程并行。通过数值算例测试基于多GPU的板料冲压成形仿真的并行计算方法的计算精度和计算效率。结果表明:在计算精度方面,基于多GPU计算平台的并行计算方法的仿真结果与基于CPU平台的计算方法的结果是一致的;在计算效率方面,对单元规模为49万的板料有限元模型进行数值计算时,相比串行程序的计算速度,基于四路Titan Xp GPU计算平台可达到近210倍的绝对加速比。
以Monte Carlo Tree Search 演算法实作的电脑围棋近年来开始崭露头角,然而在时间的限制下,模拟结果的精确度往往不佳。因此,如何使该方法在短时间内有较高的胜率便成了重要的研究方向。本论文对于上述问题提出两种解决方式:以多执...
详细信息
以Monte Carlo Tree Search 演算法实作的电脑围棋近年来开始崭露头角,然而在时间的限制下,模拟结果的精确度往往不佳。因此,如何使该方法在短时间内有较高的胜率便成了重要的研究方向。本论文对于上述问题提出两种解决方式:以多执行绪的GPU架构为基础实作CUDA平行化的专家知识库搜寻系统,借由降低专家知识库的比对时间,提供后续有更充足的时间模拟棋局。另一方面,本文运用Hadoop容易建置平行化系统的特性,透过Hadoop Streaming工具将UCT程式分散到此平行环境底下的电脑节点,并使用主从式架构的设计方式,让现有的围棋程式Wingo立即地接收并统整各个机器上的模拟结果,从中找出最佳的一手。实验结果显示,若专家知识库规模持续成长,相较于单机搜寻CUDA平行搜寻系统能省下更多时间。而Wingo围棋程式导入Hadoop平行化系统后,对抗单机版Wingo时,模拟次数虽然减少却还能保持压倒性的优势。
暂无评论