检索结果-内蒙古大学图书馆

计算机工程与设计 2019年第3期40卷 667-671页

作者：尚裕之韩军陈方杰王祖武上海大学通信与信息工程学院上海200444

为提高双目测量算法运算的速度,提出一种包括减少搬移、增大并行度和异步工作的方法来进行优化。基于快速双边滤波算法(fast bilateral stereo matching),它的匹配精度接近于全局匹配算法。对于标准测试样本,实现的方法在NVDIA TX1开发... 详细信息

为提高双目测量算法运算的速度,提出一种包括减少搬移、增大并行度和异步工作的方法来进行优化。基于快速双边滤波算法(fast bilateral stereo matching),它的匹配精度接近于全局匹配算法。对于标准测试样本,实现的方法在NVDIA TX1开发板上计算得到视差图所需要的时间更短,相比原来的CPU计算方法,代价聚合的效率有80倍的提升。实时双目测量方法为在嵌入式平台获取高质量双目视觉深度信息提供了有效、可靠的途径。

关键词：无人机实时性双目测量统一计算设备架构并行编程

来源：评论

学校读者我要写书评

暂无评论

并行计算在动态摄影测量边缘提取算法中应用

引用

计算机工程与设计 2019年第1期40卷 97-102页

作者：刘振涛燕必希董明利孙鹏王君北京信息科技大学仪器科学与光电工程学院北京100192 北京邮电大学信息光子学与光通讯研究院北京100876

为满足动态摄影测量速度需求,设计一种将Hyper-Q技术应用于双站位相机图像Canny边缘提取算法中的实现方案。通过两个流对采集到的两幅图像分别处理,充分利用GPU计算资源,实现高效并行计算。对300个特征点3种不同分辨率图像进行特征点的C... 详细信息

为满足动态摄影测量速度需求,设计一种将Hyper-Q技术应用于双站位相机图像Canny边缘提取算法中的实现方案。通过两个流对采集到的两幅图像分别处理,充分利用GPU计算资源,实现高效并行计算。对300个特征点3种不同分辨率图像进行特征点的Canny边缘检测,实验结果表明,在同样分辨率图像下,基于CUDA的边缘检测算法计算比串行计算算法速度提高了8.8倍,应用Hyper-Q技术后的CUDA程序比串行计算速度提高了11.6倍,图像处理速度显著提高,为双相机动态摄影测量系统在分辨率为4288×2848下实现3Hz测量速度提供思路。

关键词：动态摄影测量并行计算统一计算设备架构 Hyper-Q 边缘提取

来源：评论

学校读者我要写书评

暂无评论

基于线程池的GPU任务并行计算模式研究

引用

计算机学报 2018年第10期41卷 2175-2192页

作者：李涛董前琨张帅孔令晏康宏杨愚鲁南开大学计算机与控制工程学院天津300071 中国科学院计算技术研究所计算机体系结构国家重点实验室北京100109

GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU... 详细信息

GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU上的计算资源,难以有效地处理不规则的并行应用问题.为从体系结构角度探索GPU硬件支持的页锁定内存和统一虚拟地址空间等特征,该文提出了CPU辅助任务调度管理下的基于线程池技术的GPU任务并行计算模型CAGTP,实现了CPU-GPU异构计算系统上的共享内存式程序设计.提出并设计了CPU端的任务队列、计算线程块级任务调度器、任务槽和GPU端的任务复用kernel函数等机制,实现了CPU与GPU间的高效细粒度任务交互,避免了原生CUDA程序中多次启停kernel函数的开销,有效地支持了GPU上的细粒度不规则并行任务计算,而且利用模型API接口函数能够降低CPU-GPU异构计算系统的编程难度.实验结果表明,CAGTP模型中任务调度的开销是kernel函数调用的5%,有效提升了通用矩阵乘、乔列斯基分解和K均值、T近邻等典型线性代数和机器学习算法的计算性能;CAGTP模型易于扩展使用多块GPU,且在性能差异较大的多个GPU之间达到负载均衡,能够高效求解混合任务和具有不规则并行性的应用问题.

关键词：异构计算系统统一计算设备架构线程池任务并行任务复用函数

来源：评论

学校读者我要写书评

暂无评论

基于CUDA的并行SM4-GCM设计与实现

基于CUDA的并行SM4-GCM设计与实现

引用

作者：张才贤西安电子科技大学

学位级别：硕士

在目前大数据以及5G通信时代背景下,高速网络通信系统中信息的安全可靠传输已经成为一大研究热点,而其中一个重要研究议题就是要确保网络上传输数据的安全性、真实性、完整性和不可否认性。SM4是目前工业界广泛采用的分组加密算法,用于... 详细信息

在目前大数据以及5G通信时代背景下,高速网络通信系统中信息的安全可靠传输已经成为一大研究热点,而其中一个重要研究议题就是要确保网络上传输数据的安全性、真实性、完整性和不可否认性。SM4是目前工业界广泛采用的分组加密算法,用于保证数据的安全性,GCM算法则提供对数据的认证,将GCM与SM4算法结合使用即为SM4-GCM,该算法同时提供对数据的加密与认证。最近几年,GPU并行计算技术发展极为迅速,GPU具有强大的并行计算能力,成为高速异构计算系统首选加速模块,本文的研究目标是采用CPU-GPU异构计算模型实现对数据的高速认证加密,围绕该目标本文主要做了以下几个方面的工作:1.对工业界常用的认证加密方案进行了研究和总结,分析其中的优缺点。介绍了CUDA编程模型、存储器模型及访问特点、CUDA执行模型、SM4-GCM算法基本原理。2.结合SM4-GCM算法基本原理,对算法进行并行化分析,将算法剖分成三个主要部分,并划分了串行与并行任务。3.为实现高效率的数据读写,引入分级存储的思想,将共享内存作为全局内存与寄存器之间的缓存,并基于全局内存与共享内存的访存特性,设计了两种数据存储模式,既兼顾了全局内存对齐合并的访存特点,又避免了数据缓存过程中出现共享内存存储体访存冲突的问题。而为了解决这两种数据存储模式相互换的问题,本文设计了四组地址偏移量查找表,采用查表法快速确定线程读写地址,实现了这两种数据存储模式相互之间无访存冲突的转换,该思想在后续的加密与认证模块中均有体现。4.在设计加密核函数过程中,对SM4轮函数进行优化,减少内核对寄存器资源的消耗,采用循环展开,减少冗余指令。结合相关密码学理论,改进了GCM的认证工作模式。在设计主机接口函数过程中,引入了锁页内存与流,隐藏了CPU与GPU之间的通信延迟。5.结合GPU相关参数,调整相关核函数的配置,对本文所设计的模块进行测试,进而获得最佳内核配置。在最佳配置基础上测试了内核的性能指标,结果显示内核的各项指标均达到预期的效果。在该部分末尾还比较了不同的优化措施对模块性能的影响,并对结果作出相应的分析。本文基于所研究的技术和方法,对SM4-GCM认证加密算法进行并行化改进,认证加密速度达1.62GB/s,满足目前5G通信技术对认证加密速度的要求,程序的移植性较好,应用前景广阔。

关键词：高速网络认证加密统一计算设备架构并行计算

来源：评论

学校读者我要写书评

暂无评论

求解线性方程组的GPU并行算法

引用

河南水利与南水北调 2019年第10期48卷 70-72,94页

作者：谷国太肖汉河南省新闻出版学校郑州师范学院信息科学与技术学院

求解线性方程组是众多学科与工程计算以及数值代数的基本问题之一。传统的线性方程组高斯消元串行算法中消元这一操作有大量的重复计算,大大限制了它的运行效率。文章提出了高斯消元求解线性方程组的并行算法。它借助CUDA平台在GPU上对... 详细信息

求解线性方程组是众多学科与工程计算以及数值代数的基本问题之一。传统的线性方程组高斯消元串行算法中消元这一操作有大量的重复计算,大大限制了它的运行效率。文章提出了高斯消元求解线性方程组的并行算法。它借助CUDA平台在GPU上对方程组的系数矩阵进行分块,块内的线程与矩阵元素一一对应,实现了大量线程并行化简矩阵元素和恢复解向量。实验结果表明,并行算法执行效率明显提高,与串行算法相比实现了15.30倍的加速比,对于大规模数据处理呈现出良好的实时处理能力。

关键词：图形处理器统一计算设备架构高斯消元法并行计算

来源：评论

学校读者我要写书评

暂无评论

基于任务分解模型的离散数据格网化并行优化

引用

计算机工程与设计 2018年第6期39卷 1774-1781页

作者：王家润谢海峰华北计算技术研究所基础三部北京100083

针对国产应用的性能提升,基于CPU\GPU多核技术,提出软硬件结合的并行优化策略及反距离权重(IDW)插值的并行优化算法(PIDW),优化离散数据网格化处理。针对并行处理中的线程任务分解共性难点,设计基于开放多核处理(OpenMP)与统一计算设备... 详细信息

针对国产应用的性能提升,基于CPU\GPU多核技术,提出软硬件结合的并行优化策略及反距离权重(IDW)插值的并行优化算法(PIDW),优化离散数据网格化处理。针对并行处理中的线程任务分解共性难点,设计基于开放多核处理(OpenMP)与统一计算设备架构(CUDA)的线程任务分解模型(TTDM),具有线程访问安全(不越界)、计算无冗余(无重复)、计算完整(无遗漏)等特点,具有较好的计算均衡性(负载均衡)。通过国产及商用多环境实验,加速比分别是3.6和5.9,验证了PIDW算法的性能提升能力。

关键词：多核技术离散数据格网化线程任务分解模型反距离权重开放多核处理统一计算设备架构

来源：评论

学校读者我要写书评

暂无评论

基于扩散码的图像加密算法

引用

计算机工程与设计 2018年第2期39卷 370-375页

作者：张大兴刘志发武健陈辉映杭州电子科技大学图形图像研究所浙江杭州310018

结合扩散码密码体制中单比特码构造分组密码的思想,通过哈达玛矩阵实现信元扩散、布尔函数实现信元混合,完成一次信元加密。利用扩散码基础单元作为Feistel密码结构中F函数并用于图像加密,实验结果表明,该算法对图像具有良好的加密效果... 详细信息

结合扩散码密码体制中单比特码构造分组密码的思想,通过哈达玛矩阵实现信元扩散、布尔函数实现信元混合,完成一次信元加密。利用扩散码基础单元作为Feistel密码结构中F函数并用于图像加密,实验结果表明,该算法对图像具有良好的加密效果,能够有效抵抗常见攻击。考虑到扩散码算法中高度并行的特点,设计并给出GPU平台下图像加密算法的实现,该算法相比于CPU平台有近180倍加速。

关键词：扩散码分组密码图像加密统一计算设备架构并行计算

来源：评论

学校读者我要写书评

暂无评论

基于GPU的芯片热分析方法研究

引用

计算机应用研究 2018年第3期35卷 773-776页

作者：马骏徐宁武汉理工大学计算机科学与技术学院武汉430070

针对大规模IC芯片中局部高温热效应问题,提出基于网格的随机行走方法分析稳态温度分布。该算法只计算热源附近的点,从而大幅减少计算量。首先对金字塔型非规则热分析模型进行了研究,然后提出了一种预先保存概率表的加速策略;将随机行走... 详细信息

针对大规模IC芯片中局部高温热效应问题,提出基于网格的随机行走方法分析稳态温度分布。该算法只计算热源附近的点,从而大幅减少计算量。首先对金字塔型非规则热分析模型进行了研究,然后提出了一种预先保存概率表的加速策略;将随机行走算法在CUDA上实现了并行,得出了最大限度使用GPU资源并保证最大加速比的最优配置。实验结果表明,提出的并行随机行走算法使总体计算性能提升了7~10倍。

关键词：统一计算设备架构图形处理器加速随机行走金字塔模型 IC 热分析

来源：评论

学校读者我要写书评

暂无评论

创建虚拟机的方法、装置、设备和计算机存储介质

创建虚拟机的方法、装置、设备和计算机存储介质

引用

作者：郭利军张宇刘琦 100085 北京市海淀区上地十街10号百度大厦2层

本发明提供一种创建虚拟机的方法、装置、设备和计算机存储介质，涉及云计算领域。所述方法包括：服务器端获取创建虚拟机的请求，所述请求中包含图形处理器GPU驱动的版本；确定与所述GPU驱动的版本对应的统一计算设备架构CUDA的版本，... 详细信息

标准号: CN110489210A

本发明提供一种创建虚拟机的方法、装置、设备和计算机存储介质，涉及云计算领域。所述方法包括：服务器端获取创建虚拟机的请求，所述请求中包含图形处理器GPU驱动的版本；确定与所述GPU驱动的版本对应的统一计算设备架构CUDA的版本，并分别获取与GPU驱动的版本以及CUDA的版本对应的安装文件；根据普通镜像以及所述安装文件，在云服务器中完成虚拟机的创建。本发明能够降低创建虚拟机的人力成本，并提升虚拟机的创建效率以及创建成功率。

关键词：虚拟机创建安装文件驱动统一计算设备架构计算机存储介质图形处理器服务器端人力成本云服务器云计算成功率

来源：评论

学校读者我要写书评

暂无评论

高频空时回波信号半物理仿真关键技术

高频空时回波信号半物理仿真关键技术

引用

作者：胡民哈尔滨工业大学

学位级别：硕士

快速并可靠地检测海上目标,在军事和民用方面均有重大的意义。然而,面对复杂多变的工作环境,海面雷达所接收到的回波信号中除了有效的目标信号外,还会包括各类干扰、噪声、海杂波等。其中,海杂波的非高斯、非平稳特性明显,且功率水平较... 详细信息

快速并可靠地检测海上目标,在军事和民用方面均有重大的意义。然而,面对复杂多变的工作环境,海面雷达所接收到的回波信号中除了有效的目标信号外,还会包括各类干扰、噪声、海杂波等。其中,海杂波的非高斯、非平稳特性明显,且功率水平较高使其成为首要限制检测性能的重要原因之一。因此,以目标检测为出发点,根据海杂波的特殊频谱特性建立动态海面的海杂波模型,由此丰富雷达信号模拟器的环境背景,为有效进行海面复合目标检测的研究提供基础。由于雷达实验的成本越来越高,且后续数据处理的实时性和可靠性要求也更加严格。传统的雷达信号模拟器会受到自身处理性能差和环境模拟形式单一等制约,很难达到研究人员预期的高运算精度和实时处理速度。因此本文提出利用(NURBS)曲线曲面建模方法精确建立空时变化的粗糙海面模型,利用电磁仿真计算时变海面的电磁散射系数;然后基于GPU的快速计算能力构造时变的粗糙海面回波和海上目标信号回波;最后利用相关信号处理算法验证回波构造和算法仿真的正确性。本文通过这种更可靠且实用性更强的方法建立具有时效性的以动态海面为检测背景的高频地波雷达信号模拟系统。首先,本文针对动态海面的模型建立问题,本文使用线性滤波法将静态海面谱中加入时间变化因子从而得到随时间变化的动态粗糙海面。其中海面谱选取经典PM海浪谱,通过蒙特卡洛法生成点云形式的海浪模型,再利用NURBS曲线曲面建模法将超大尺寸的海浪模型逆向重构为NURBS网格形式海面。NURBS建模的一大优势是提高大尺寸模型的建模精度,为后续计算时变的粗糙海面电磁散射系数铺垫。然后,本文针对计算电大尺寸电磁散射系数的方法问题,本文利用三维全波电磁仿真软件FEKO对上文中提到的NURBS海面模型进行格式转换,并利用它的多种算法计算空时变换的海面电磁散射系数。其中使用物理光学算法能够节省大量的计算资源使得计算时间大大减少,因此这种方法更适用于大场景模型的计算。这进一步的推进了后续复合海面目标回波的构造以及相关信号处理算法的实现。最后,本文针对复合目标回波信号的构造的问题,海杂波时间序列可以通过准静态方法来实现。但是由于需要对整个构成场景的点目标和时空变化的海杂波进行回波构造,CPU难以满足大场景,实时性的计算要求。因此本文基于多组GPU并行计算的方法提高回波模拟的速度,大大提升了雷达仿真系统的实用性能。此外,还采用距离多普勒和波束形成算法验证回波构造的正确性。

关键词：动态海面建模曲线曲面建模电磁仿真统一计算设备架构

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：