检索结果-内蒙古大学图书馆

作者：汪超湖南大学

学位级别：硕士

基于壳单元理论的有限元分析方法广泛应用于汽车车身的CAE分析,在本文中主要用于解决板壳结构的非线性问题和板料冲压成形的仿真计算问题。随着有限元模型越来越复杂,仿真过程中需要处理庞大的计算量,所以计算仿真的效率较低。由于强大... 详细信息

基于壳单元理论的有限元分析方法广泛应用于汽车车身的CAE分析,在本文中主要用于解决板壳结构的非线性问题和板料冲压成形的仿真计算问题。随着有限元模型越来越复杂,仿真过程中需要处理庞大的计算量,所以计算仿真的效率较低。由于强大的数据处理能力,基于gpu的并行计算方法早已用于解决仿真分析中计算效率低的问题。但是,单个gpu受到硬件资源的限制,无法满足大规模计算的需求。当前的异构计算平台能够配置2-4块gpu设备,单机多路gpu的计算平台突破了单个gpu硬件资源的限制。本文主要工作就是将基于单机多路gpu的并行技术应用于解决薄壳结构的动态非线性问题和板料的冲压成形的仿真问题。具体的工作与成果如下:(1)在调用多个gpu对有限元模型进行仿真计算之前,合理的对有限元网格模型进行区域分解是相当重要的。本文基于METIS开源库开发了适用于本文算法的数据分区预处理系统从而实现了有限元网格数据的快速区域分解。该系统有两个优点:一是各子区域的计算量均衡,二是各区域间的边界点数量较小。(2)使用OpenMP和统一计算架构(CUDA)的混合编程模型实现了有限元显式求解的多gpu并行计算方法,并开发了具有自主知识产权的基于多gpu并行的车身结构分析软件。并行实现的大致思路分两方面:一方面为基于OpenMP模式CPU线程级并行,另一方面为基于CUDA架构的gpu轻量级线程并行。前者主要是通过开辟与gpu设备数量相同的CPU线程数,一个CPU线程控制着一个gpu设备的启动与挂起。后者则主要是通过建立gpu线程与单元、节点、自由度的抽象映射关系,从而实现基于BT壳单元理论的显式迭代求解部分在多gpu上全过程处理。(3)在基于预索引策略的节点内力组装过程中,在处理百万级单元规模的有限元模型时,计算的循环量达到万亿级别,耗时相当严重。因此,本文对此预索引策略加以改进,同样处理百万级单元规模的有限元模型时,计算的循环量则只有千万级别,从而降低了算法的时间复杂度,明显的缩短了索引时间。对板壳非线性问题进行数值仿真,计算的结果表明,本文提出的基于多gpu的并行计算方法能满足工程问题的精度要求,并且计算效率得到了明显的提升。在四路Titan Xp gpu工作站上对10,889,568自由度的车身弹性变形问题进行求解时,四路gpu的计算绝对加速比可达73倍,相对加速比可达3.4,非常接近理论值。(4)本文提出了适用于板料冲压成形仿真计算的多gpu并行计算方法。针对显式迭代过程中的求解特征,提出了包括弹塑性材料本构的单元计算的多gpu并行计算方法以及接触力求解的gpu并行计算方法,实现了板料冲压成形仿真的显式迭代过程的全流程并行。通过数值算例测试基于多gpu的板料冲压成形仿真的并行计算方法的计算精度和计算效率。结果表明:在计算精度方面,基于多gpu计算平台的并行计算方法的仿真结果与基于CPU平台的计算方法的结果是一致的;在计算效率方面,对单元规模为49万的板料有限元模型进行数值计算时,相比串行程序的计算速度,基于四路Titan Xp gpu计算平台可达到近210倍的绝对加速比。

关键词：图形处理器 OpenMP 统一计算架构多gpu并行计算 BT壳单元板料冲压成形

来源：评论

学校读者我要写书评

暂无评论

三维井筒声场模拟多gpu并行算法研究与实现

引用

测井技术 2025年第2期49卷 152-163,170页

作者：王华何伟丙强晓勇汪强黄方李萌电子科技大学资源与环境学院四川成都611731 西安石油大学地球科学与工程学院陕西西安710065

井筒声场测量是油气和地热等资源勘探开发过程中重要的检测手段。利用三维数值模拟可以分析复杂井筒环境对声场传播规律的影响,为复杂井筒环境下地层和水泥环空介质弹性信息的准确反演奠定基础。弹性波有限差分数值模拟技术通常需要消... 详细信息

井筒声场测量是油气和地热等资源勘探开发过程中重要的检测手段。利用三维数值模拟可以分析复杂井筒环境对声场传播规律的影响,为复杂井筒环境下地层和水泥环空介质弹性信息的准确反演奠定基础。弹性波有限差分数值模拟技术通常需要消耗大量的计算资源,特别是在处理大规模三维模型时计算时间和存储需求急剧增加。提出一种基于CUDA(Compute Unified Device Architecture)构架技术的三维井筒声场多图形处理单元(Graphics Processing Unit,gpu)并行数值模拟算法,以套管井超声弯曲波声场数值模拟为例,通过模型划分、资源分配和计算协调,利用多块gpu的计算资源,实现三维复杂井筒环境声场的高效数值模拟。实验结果表明,在单块gpu上实现的算法可以使小尺度模型的模拟加速比达到8.93;在4块gpu上实现的算法可以使大尺度模型的模拟加速比达到9.95。多gpu并行算法为三维复杂井筒声场的数值模拟提供了一种高效的解决方案,为基于高性能图像处理单元并行计算的声学测井数值模拟技术提供了新思路。

关键词：声波测井井筒声场三维弹性波有限差分多gpu并行计算

来源：评论

学校读者我要写书评

暂无评论

基于多gpu的大规模拓扑优化并行计算方法及其应用

基于多GPU的大规模拓扑优化并行计算方法及其应用

引用

作者：王宇杰湖南大学

学位级别：硕士

基于拓扑优化的结构设计方法已经广泛应用于多行业产品开发的轻量化设计以及结构的创新性设计等领域,其能够在满足结构性能要求的前提下降低产品成本。但是,随着优化模型规模增大,拓扑优化过程的计算量快速增长,计算效率低的问题开始突... 详细信息

基于拓扑优化的结构设计方法已经广泛应用于多行业产品开发的轻量化设计以及结构的创新性设计等领域,其能够在满足结构性能要求的前提下降低产品成本。但是,随着优化模型规模增大,拓扑优化过程的计算量快速增长,计算效率低的问题开始突出,限制了拓扑优化技术的工程实用性。近几年,基于gpu的并行计算技术已经在数值计算各领域中被广泛使用,其在具有高性价比的前提下,通过对算法进行并行改造处理,能够极大地提升计算效率。因此,采用gpu并行计算技术可以有效缩短拓扑优化计算时间。为此,本文全面系统地研究了基于gpu的拓扑优化并行计算方法,创新性地提出了一种高效组装算法,开发出了快速线性求解器,实现了多gpu计算平台上的拓扑优化全流程细粒度并行。首先,为了解决拓扑优化有限元分析中刚度矩阵组装效率低、并行性差的问题。本文针对拓扑优化计算特点,创新性地提出了一种高效的刚度矩阵组装算法,该算法主要分为符号组装和数值组装两个部分,其中符号组装只需要在拓扑优化第一次迭代过程计算,后续迭代过程只需要计算数值组装。该算法大大减少了刚度矩阵组装时间,并且算法可并行度较高,可以在gpu设备上实现有效的并行加速计算。与常用的无矩阵法相比,没有给线性求解带来额外的计算任务,真正地提升了拓扑优化计算效率。其次,本文开发出了基于gpu的迭代求解器来对拓扑优化过程中的线性系统进行快速求解。求解器采用共轭梯度算法来实现线性方程迭代求解,并结合雅克比预处理算子来增加迭代收敛速度,提升算法稳定性。利用gpu对迭代算法实现细粒度并行,通过矢量内核利用Warp特性对稀疏矩阵向量乘(Sp MV)实现高效加速计算。测试结果表明,与商业求解器Pardiso相比本文提出的gpu迭代求解器可以实现更快求解,并且内存占用更小。然后,本文在gpu上实现了基于SIMP拓扑优化方法中灵敏度计算、敏度滤波、优化准则与密度更新三个部分的加速计算,使用TFE(Thread For Element)的计算策略来进行细粒度并行。整个拓扑优化过程通过CPU进行迭代控制,gpu负责并行计算,MBB梁数值算例表明,对于120万自由度的连续体结构拓扑优化,Nvidia RTX 2080ti gpu相对Intel i9-9880H CPU可获得超过70倍的加速比。最后,为了应对超大规模问题并进一步提高计算效率,本文实现了拓扑优化全流程的多gpu并行计算。通过自主设计的分区算法对有限元模型和计算数据进行数据分区,针对不同计算过程提出了最佳数据分区策略将拓扑优化单gpu算法移植到多gpu平台计算。使用计算统一设备架构(CUDA)结合Open MP进行编程,建立了单节点多gpu并行计算模型,其中Open MP和CUDA分别控制主机端的粗粒度并行和设备端的细粒度并行。此外,本文针对拓扑优化多gpu计算过程实现了一种基于Nv Link的设备通信优化方法,通过采用P2P传输方案大大提升了gpu之间的数据传输带宽,减少了数据通信在整个计算过程中的时间占比。最终通过400万自由度的系杆拱桥与1000万自由度的散热器两个大规模算例对本文提出的拓扑优化多gpu计算方法进行验证,结果显示,对于系杆拱桥三维连续结构拓扑优化问题,与Intel i9-9880H CPU的串行计算相比,两块Nvidia RTX 2080ti gpu并行计算的速度提升达220倍,热传导实例散热器的加速度也超过90。

关键词：拓扑优化多gpu并行计算线性求解器高效组装算法 OpenMP CUDA

来源：评论

学校读者我要写书评

暂无评论

多gpu并行的EBE-PCG算法研究及其在振动波场分析中的应用

多GPU并行的EBE-PCG算法研究及其在振动波场分析中的应用

引用

作者：杨啸中南大学

学位级别：硕士

有限元振动波场分析在车致环境振动和地震波数值模拟等领域有着广泛的应用,伴随着计算机技术的发展,有限元数值模拟的规模和复杂程度也越来越大,传统串行算法难以处理和求解。并行算法的不断发展为解决上述问题提供了可能,其中EBE(Eleme... 详细信息

有限元振动波场分析在车致环境振动和地震波数值模拟等领域有着广泛的应用,伴随着计算机技术的发展,有限元数值模拟的规模和复杂程度也越来越大,传统串行算法难以处理和求解。并行算法的不断发展为解决上述问题提供了可能,其中EBE(Element-byElement)-PCG法是一种基于单元级别的高效并行算法。gpu是专为密集型、高度并行化计算而设计的,其众核性质能够为单元级别并行计算提供保障。针对上述问题,本文主要开展了以下研究工作: 首先,本文基于OpenMP+CUDA混合编程技术实现了基于多gpu的并行PCG法,用于大型有限元线性方程组求解的加速。针对振动波场的大型有限元方程组对称正定特征,本文采用预处理共轭梯度法(Preconditioned Conjugate Gradient,PCG)进行线性方程组的求解;结合OpenMP+CUDA混编技术实现了PCG算法在多gpu环境下的并行化,基于NVLink的Peer-to-Peer(P2P)设备传输方法,提升了gpu之间的数据带宽,降低了多gpu并行计算过程中各设备间的通信效率对整体计算性能的影响。选取测试矩阵进行算例分析,计算结果表明,基于OpenMP+CUDA的多gpu并行PCG法计算效率明显高于CPU串行算法。其次,使用OpenMP+CUDA混编技术实现了基于EBE-PCG的多gpu并行算法。结合EBE-PCG法数学模型和CUDA(Compute Unified Device Architecture)编程框架,实现了基于CUDA的EBEPCG法。针对单gpu的显存和计算效率的限制问题,采用OpenMP+CUDA混合编程技术实现EBE-PCG法多gpu并行计算。在MATLAB-CUDA平台上开发并行计算程序。通过lamb表面源和内源问题数值算例验证该算法的有效性。最后,在单机4gpu节点上分别针对三维车致环境随机振动和均匀弹性土地震波场问题进行算例分析。两算例计算结果均表明基于多gpu的并行PCG法和基于多gpu的EBE-PCG法可以显著提升振动波场分析计算效率。车致环境振动算例表明,相较于多点同步算法,基于多gpu的并行PCG法和基于多gpu的EBE-PCG法最高可以获得14.3和9.2倍的加速比。此外,将车致环境随机振动计算中需求解的多个独立方程分配到4块gpu上,在每块gpu上采用基于CUDA的并行PCG算法进行计算,此方法因gpu间没有数据传输最高可获得22.6倍的加速比。三维地震波场数值算例表明,相较于ANSYS的PCG求解器,在600万自由度模型计算中,基于多gpu的并行PCG法和基于多gpu的EBE-PCG法最高分别可获得22.8和18.6倍的加速比。图52幅,表16个,参考文献127篇

关键词： EBE-PCG 多gpu并行计算三维有限元法 OpenMP 环境振动地震波场

来源：评论

学校读者我要写书评

暂无评论

显式有限元多gpu并行仿真系统开发及其在车身结构设计中的应用

显式有限元多GPU并行仿真系统开发及其在车身结构设计中的应用

引用

作者：郭维鹏湖南大学

学位级别：硕士

汽车车身结构设计是汽车整车开发流程中的关键部分,设计中利用CAE有限元仿真软件进行辅助计算是降低开发成本的重要手段。我国汽车工业使用的仿真软件大多数是国外的。自主仿真软件存在计算效率低,计算规模受硬件限制,后处理流程不完善... 详细信息

汽车车身结构设计是汽车整车开发流程中的关键部分,设计中利用CAE有限元仿真软件进行辅助计算是降低开发成本的重要手段。我国汽车工业使用的仿真软件大多数是国外的。自主仿真软件存在计算效率低,计算规模受硬件限制,后处理流程不完善等问题。因此开发高效,流程完善且可处理大规模问题的自主有限元仿真系统至关重要。基于此,本文通过在有限元仿真中结合gpu并行计算方法,利用gpu的高并发性对有限元计算进行了加速。并且使用多gpu并行计算技术来应对超大规模问题,进一步提升仿真系统的计算效率。同时还开发了基于有限元仿真系统的后处理模块,通过计算数据的二次提取,能高效的分析后处理数据,非常适用于企业处理大批次的计算模型。具体工作内容及成果如下:(1)实现了壳单元全流程的多gpu并行计算,建立了显示有限元分析的多gpu并行计算模型,实现系统的多gpu求解器的开发。首先,调用基于METIS开源软件对有限元模型进行数据分区,保证了各gpu的计算负载均衡,同时使各个分区之间的边界点最少。接着,开发了基于计数排序思想的分区节点预处理算法,以线性复杂度找到了各分区的边界点,成功实现了多gpu并行的数据基础。通过建立位置映射数组,实现不同分区内部单元和节点的链接。并引入边界点分区编号队列,建立边界点传输策略,实现各分区公共边界节点在不同分区的对应传输。(2)改进了多gpu求解器并行算法中的边界点处理策略,利用传输时机相同的特性叠加不同gpu边界点数据的传输时间,进一步提升了多gpu并行过程中的数据传输效率。其次,通过调整寄存器和本地内存的数量多次试验,对节点的坐标位移更新函数、加速度更新函数以及单元计算函数进行了效率优化。最终试验算例结果中,节点位移加速度更新函数优化效果最好,达到40%以上。(3)开发了多gpu并行仿真系统的后处理框架。首先面向对象创建了总输出管理类,用来管理单元,节点等五类输出对象。并且通过为每种输出对象添加内存管理,数据提取和数据输出三大方法,使整个输出框架实现了gpu中后处理数据提取时的内存对齐,极大地提高了从多gpu内存提取后处理数据的速度。同时通过测试发现二进制格式的输出速度明显高于文本格式,因此基于二进制设计了后处理文件模块的输出格式,并设计了基于索引文件的快速提取方法,经测试可以准确提取指定后处理数据,快速实现后处理分析。(4)基于Qt环境开发了仿真系统的界面,提高了系统的易用性和集成度。其中主要包括初始化界面,材料界面,求解界面和后处理界面。最后,通过多组车身模型对系统进行计算验证,其中最大的算例规模达到1200万自由度。结果表明本系统求解结果精度可满足工程需求,后处理模块能准确提取数据进行分析。并且测试算例中双gpu求解器取得27倍以上的绝对加速比,相对单gpu取得1.9倍以上的相对加速比,验证了本文开发的多gpu仿真系统高效的求解性能,以及可用于处理大规模工程问题。

关键词：有限元仿真系统 CUDA架构多gpu并行计算后处理二进制格式

来源：评论

学校读者我要写书评

暂无评论

地下结构抗震模型的多gpu显式动力分析

地下结构抗震模型的多GPU显式动力分析

引用

第十六届中国CAE工程分析技术年会

作者：曹胜涛李志山关远聪冯玮健黎路广州颖力土木科技有限公司

国外通用有限元程序显式分析程序基本均采用CPU并行计算,并行效率尚有待提高。基于多gpu并行计算,本文自主研发的显式动力分析软件GFE-X,实现了显式分析的细粒度并行,大幅提升了计算效率。分别采用国际通用有限元分析程序(软件A) 8 CPU... 详细信息

国外通用有限元程序显式分析程序基本均采用CPU并行计算,并行效率尚有待提高。基于多gpu并行计算,本文自主研发的显式动力分析软件GFE-X,实现了显式分析的细粒度并行,大幅提升了计算效率。分别采用国际通用有限元分析程序(软件A) 8 CPU、GFE-X 2 gpu和GFE-X 1 gpu对某地下结构进行了地震动力非线性时程分析,计算得到位移时程和结构塑性应变基本一致,验证了GFE-X的正确性。GFE-X 1 gpu的计算效率为软件A 8 CPU计算效率的3.46倍;GFE-X 2 gpu的计算效率为GFE-X 1gpu的1.78倍,验证了多gpu对有限元显式动力分析加速的有效性。

关键词：多gpu并行计算显式动力分析地下结构

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：