检索结果-内蒙古大学图书馆

西安交通大学学报 2023年第6期57卷 105-114页

作者：苏裕林刘浩苏琦贾康洪军西安交通大学现代设计与轴承转子教育部重点实验室西安710049 西安交通大学软件学院西安710049 西安交通大学机械工程学院西安710049

针对复杂装配体在多指标需求下装配精度计算效率低下的问题,提出了一种基于统一计算架构(CUDA)的多误差传递路径装配精度并行计算模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作... 详细信息

针对复杂装配体在多指标需求下装配精度计算效率低下的问题,提出了一种基于统一计算架构(CUDA)的多误差传递路径装配精度并行计算模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作为误差传递单元,通过构建姿态变换和误差传递模型,分解误差传递过程,为后续并行计算提供支持;然后,对多功能需求(FR)误差传递路径按类型特征进行路径合并和误差旋量复用,减少计算量和数据生成量;最后,设计算法数据结构,根据任务需求分配线程任务、合理分配内存及降低访存时延。采用该模型对某型航发高压压气机转子的装配精度进行仿真计算,结果表明:与传统CPU模型相比,所提模型的装配精度计算速度提高了约97.3倍,能够为复杂装配体的装配精度计算和公差设计提供支持。

关键词：公差设计装配特征装配精度统一计算架构并行计算

来源：评论

学校读者我要写书评

暂无评论

基于统一计算架构的人体受照剂量实时仿真评估方法

引用

辐射研究与辐射工艺学报 2015年第6期33卷 41-47页

作者：杨子辉王静何桃宋婧龙鹏程中国科学技术大学合肥230027 中国科学院核能安全技术研究所中国科学院中子输运理论与辐射安全重点实验室合肥230031

基于统一计算架构(Compute unified device architecture,CUDA),利用GPU的流多处理器和共享显存实现了辐射环境中人体体素级受照剂量的并行计算。通过加速器驱动次临界系统散裂靶质子束窗的维修更换仿真例题的测试,百万量级体素人体受... 详细信息

基于统一计算架构(Compute unified device architecture,CUDA),利用GPU的流多处理器和共享显存实现了辐射环境中人体体素级受照剂量的并行计算。通过加速器驱动次临界系统散裂靶质子束窗的维修更换仿真例题的测试,百万量级体素人体受照剂量计算时间降低到10 ms的量级,能够保持与实时维修仿真同步。该方法能够满足维修仿真对维修人员的器官当量剂量和人体有效剂量计算的实时性要求,可应用到维修方案的实时仿真推演,对提高维修方案的设计与验证效率,辅助优化方案和保障人员辐射安全具有重要意义。

关键词：受照剂量评估并行计算统一计算架构实时仿真

来源：评论

学校读者我要写书评

暂无评论

基于GPU的椭圆曲线运算库及相关算法优化

引用

信息安全学报 2024年第6期9卷 1-16页

作者：高钰洋张健宁王刚苏明刘晓光南开大学计算机学院网络空间安全学院天津300350 贵州大学公共大数据国家重点实验室贵阳550025 数据与智能系统安全教育部重点实验室天津300350

在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优... 详细信息

在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优化也在近几年获得了广泛的关注与研究。本文充分利用GPU作为众核处理器的优势,设计了基于GPU的椭圆曲线运算库。在运算库中,本文在GPU上实现并优化了常用的椭圆曲线运算与大数运算,同时针对不同的需求设计了不同的实现与接口。本文对寄存器与常量内存等存储空间进行了合理分配,并通过利用预计算等优化手段减少了计算量,从而最大化了运算库的吞吐与性能。为了验证运算库的实用性与有效性,本文利用该运算库实现了代理重加密与Bulletproofs范围证明的验证算法,同时充分利用了算法的内部并行性进行优化。实验表明,本文实现的运算库在各个运算中都取得了远超于OpenSSL等常用CPU端运算库的性能。基于该运算库实现的代理重加密算法相比CPU实现能达到最高145倍左右的加速比,Bulletproofs范围证明验证算法相比于CPU端实现也能达到5.57倍左右的加速效果,平均证明验证时间在1 ms内,可以满足数字货币隐私保护场景下超过每秒2000笔交易的性能需求。可见该运算库能为区块链系统隐私保护等对密码学计算具有高吞吐需求的场景提供坚实支持。

关键词：椭圆曲线图形处理单元统一计算架构范围证明代理重加密

来源：评论

学校读者我要写书评

暂无评论

GRAPES动力框架中大规模稀疏线性系统并行求解及优化

引用

计算机工程 2022年第1期48卷 149-154,162页

作者：张琨贾金芳严文昕黄建强王晓英青海大学计算机技术与应用系西宁810016 清华大学计算机科学与技术系北京100084

赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解... 详细信息

赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。

关键词：稀疏线性系统广义共轭余差法信息传递接口 OpenMP编程统一计算架构

来源：评论

学校读者我要写书评

暂无评论

协同CPU和GPU的核密度估计及其可视化算法

引用

地理空间信息 2024年第6期22卷 29-33,47页

作者：胡森高苏蔡忠亮武汉大学资源与环境科学学院湖北武汉430079 云南省地图院云南昆明650034

大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控... 详细信息

大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控制能力、GPU的并行计算能力以及OpenGL中的核心模式,并借助显存映射,同时优化了核密度估计的计算和可视化2方面。实验结果表明,相较于CPU并行和串行算法,该算法的执行效率分别提高了约5倍和20倍,且随着图像分辨率的提高,加速比呈现逐步上升的趋势。

关键词：核密度估计可视化 GPU OpenGL 统一计算架构

来源：评论

学校读者我要写书评

暂无评论

松耦合组件式GPU生态迁移适配系统研究

引用

通信世界 2023年第23期 41-43页

作者：邓玲中国联通广东省分公司

在英伟达GPU芯片进口受限的大环境下,AI-GPU算力芯片及其他算力芯片的国产化替代,是当前我国AI产业发展的必经之路。虽然当前国内各大厂商都推出了各具特色的GPU芯片,但英伟达公司在长期发展过程中构建了除算力芯片外的CUDA(Compute Uni... 详细信息

在英伟达GPU芯片进口受限的大环境下,AI-GPU算力芯片及其他算力芯片的国产化替代,是当前我国AI产业发展的必经之路。虽然当前国内各大厂商都推出了各具特色的GPU芯片,但英伟达公司在长期发展过程中构建了除算力芯片外的CUDA(Compute Unified Device Architecture,统一计算架构)软件生态,这也构成了英伟达GPU芯片的核心竞争力。

关键词：统一计算架构 GPU 组件式国产化替代松耦合核心竞争力适配系统 AI

来源：评论

学校读者我要写书评

暂无评论

基于CUDA的SKINNY加密算法并行实现与分析

引用

计算机应用 2021年第4期41卷 1136-1141页

作者：解文博韦永壮刘争红广西密码学与信息安全重点实验室(桂林电子科技大学) 广西桂林541004 广西无线宽带通信与信号处理重点实验室(桂林电子科技大学) 广西桂林541004

针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出一种基于图形处理器(GPU)的快速实现方法。首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计... 详细信息

针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出一种基于图形处理器(GPU)的快速实现方法。首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案。实验结果表明,与传统的CPU实现方法下的SKINNY算法相比,基于计算统一设备架构(CUDA)实现的SKINNY算法的效率和吞吐量得到很大提升。具体来说,当处理的数据达到16 MB及以上时,在所提实现方法下,SKINNY算法的ECB模式的加速效率提升峰值为99.85%,加速比峰值为671,CTR模式的加速效率提升峰值为99.87%,加速比峰值为765;而与已有AES-256(ECB)和SKINNY_ECB并行算法比较,新提出的SKINNY-256(ECB)并行算法的吞吐量分别是它们的吞吐量的1.29倍和2.55倍。

关键词： SKINNY密码算法并行计算统一计算架构图形处理器电子密码本模式计数器模式

来源：评论

学校读者我要写书评

暂无评论

基于GPU和切片的分组密码算法高速实现方法研究

基于GPU和切片的分组密码算法高速实现方法研究

引用

作者：解文博桂林电子科技大学

学位级别：硕士

分组密码由于在软硬件上实现便捷,常被用于数据加密及隐私保护。如何在大数据环境下,对分组密码进行高速实现,以提供安全支持,成为学术界与工业界讨论的热点问题。关于分组密码的快速实现可以在软硬件两大方面进行优化,在硬件方面的优... 详细信息

分组密码由于在软硬件上实现便捷,常被用于数据加密及隐私保护。如何在大数据环境下,对分组密码进行高速实现,以提供安全支持,成为学术界与工业界讨论的热点问题。关于分组密码的快速实现可以在软硬件两大方面进行优化,在硬件方面的优化主要是利用图形处理器(GPU)实现,基于GPU的多线程、适合并行计算等优点对算法进行优化实现;在软件方面的优化主要是切片技术的应用,基于切片技术在软件实现中模拟硬件的实现方式的思想进而达到提升实现性能的目的。本文基于GPU和切片技术,研究分组密码的算法高速实现方法,工作内容包括:1.提出一种针对SKINNY加密算法在GPU下的快速实现方案。基于SKINNY密码算法结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案。研究结果表明:基于CUDA实现的SKINNY算法的效率和吞吐量得到较大提升,其中ECB模式的加速效率峰值为99.85%,加速比峰值为671,CTR模式加速效率峰值为99.87%,加速比峰值为765。与已有AES和SKINNY并行算法比较,新提出的SKINNY并行算法的吞吐量分别是其它们的吞吐量的1.29倍和2.55倍。2.提出一种针对国密算法SM4的GPU并行方案。通过对分组密码SKINNY算法的分析和实现推广到对国密算法SM4的研究,基于SM4密码算法的结构特征,结合CUDA的特性,通过页锁定内存和CUDA流的引入,对SM4算法进行优化,提升其性能。实验结果表明:SM4算法在最终获得的加速比峰值为89,吞吐量峰值可达31.41Gbps。与已有SM4并行算法相比,本文的实现结果最高有了3.44倍的性能提升。3.提出一种基于GPU和固定切片技术的AES算法快速实现新方案。基于AES的结构特点,在CUDA下通过将AES某些切片进行固定,并对其线性层进行相应的调整,进而提升该算法性能。进一步地采用全比特固定和半比特固定实现AES,发现两种方法所用时间和数据吞吐量相差不大,但半比特固定实现所用操作数更少。研究结果表明:固定切片技术的应用能够提升AES算法的性能,并提高其空间利用率;应用固定切片技术实现AES算法,在CPU和GPU下分别有2.60和5.88倍的性能提升,GPU下获得的加速比峰值达到310。与已有AES并行算法相比,本文的实现结果最高有了21.6倍的性能提升。

关键词：分组密码图形处理器统一计算架构比特切片并行技术

来源：评论

学校读者我要写书评

暂无评论

基于CPU和GPU的雷达目标识别算法并行实现

基于CPU和GPU的雷达目标识别算法并行实现

引用

作者：钟银都西安电子科技大学

学位级别：硕士

现代战争对雷达的自动化和智能化水平提出了较高的要求,以雷达目标识别为代表的智能信息处理技术受到了广泛的关注。随着雷达信号带宽的持续提高以及识别数据库中目标种类的不断增加,给实时地完成目标识别任务带来了极大的挑战。由于雷... 详细信息

现代战争对雷达的自动化和智能化水平提出了较高的要求,以雷达目标识别为代表的智能信息处理技术受到了广泛的关注。随着雷达信号带宽的持续提高以及识别数据库中目标种类的不断增加,给实时地完成目标识别任务带来了极大的挑战。由于雷达目标识别任务具有良好的并行结构,高效的并行处理算法成为了目标识别技术领域的研究热点。与此同时,以中央处理器(CPU)和图形处理器(GPU)为代表的硬件处理器的并行处理能力也越来越强大,这为雷达目标识别算法的并行加速提供了可能。基于上述背景,本文开展了雷达高分辨距离像(HRRP)识别相关算法的并行设计研究,并在多核心CPU处理器硬件平台和CPU+GPU的异构平台下进行了算法实现。主要工作内容概括如下:1.结合线性调频脉冲体制雷达HRRP识别流程,对每个环节常用算法的原理进行阐述。首先介绍了针对大时宽带宽信号脉冲压缩处理的分段脉冲压缩算法;然后介绍了针对相参积累期间目标越距离单元走动问题的Keystone变换及其两种常用实现方式,即DFT+IFFT算法和Chirp-Z算法;接着介绍了针对HRRP数据敏感性问题的常用预处理方法;最后介绍了四种经典的统计识别模型和卷积神经网络识别模型。2.阐述了CPU和GPU处理器硬件结构的区别,然后给出了针对多核心CPU处理器并行编程的C++11多线程编程方法,以及针对NVIDIA GPU处理器并行编程的统一计算架构(CUDA)的编程、执行模型。最后给出了CUDA并行编程的调试分析方法及内核优化技巧。3.详细分析了HRRP识别流程中各算法的并行结构,针对性地设计了相应的并行实现方案,完成了各个算法在CPU平台下的单线程实现和多线程并行实现以及在CPU+GPU平台下的多线程并行实现。通过仿真实验检验了各算法在两种并行实现方式下的运行结果,并以CPU单线程运行时间为基准,对比分析了两种并行实现方式下的加速效果。其中,分段脉冲压缩算法、DFT+IFFT算法、Chirp-Z算法、迭代对齐算法、最大相关系数(MCC)分类器和自适应高斯分类器(AGC)的建模、MCC识别、AGC识别、因子分析(FA)建模和复因子分析(CFA)建模过程的CPU多线程实现可以达到3～5倍的加速效果,相应的GPU并行实现也都可以达到5倍以上的加速效果;此外,基于卷积神经网络的识别方法也取得了一定的加速效果。这说明基于CPU的多线程并行实现方式和基于CPU+GPU异构平台的并行实现方式能够显著提升雷达目标识别任务的实时性。

关键词：高分辨距离像目标识别多线程并行计算统一计算架构

来源：评论

学校读者我要写书评

暂无评论

实时多车道车辆计数方法

引用

计算机工程与设计 2019年第5期40卷 1383-1389页

作者：王超陈庆奎上海理工大学光电信息与计算机工程学院上海200093

为智能检测多车道车辆数目,提出一种实时多车道车辆计数方法。利用运动车辆完成整个车道区域提取排除非车道区域的干扰,在道路背景重建得到无车辆遮挡的道路背景后完成车道线检测和拟合,得到多车道区域;在此基础上,通过提取车尾灯红色... 详细信息

为智能检测多车道车辆数目,提出一种实时多车道车辆计数方法。利用运动车辆完成整个车道区域提取排除非车道区域的干扰,在道路背景重建得到无车辆遮挡的道路背景后完成车道线检测和拟合,得到多车道区域;在此基础上,通过提取车尾灯红色区域并建立相应的匹配规则匹配成对车尾灯,解决车辆并排同速问题,完成车辆计数的任务,实现多车道车辆计数。在CUDA平台下使用图像处理器(GPU)NVIDIA GTX680显卡对算法进行加速,可以达到28ms/帧的处理速率,验证了算法的实时性。

关键词：智能检测多车道区域背景重建匹配规则统一计算架构

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：