检索结果-内蒙古大学图书馆

作者：张洋 100005 北京市东城区建国门内大街69号

本申请提供一种基于GPU并行加速的循环转账检测方法及装置，涉及金融数据分析等技术领域，该方法包括：获取待处理的交易数据对应的有序哈希表，创建有序哈希表对应的有向图；根据预设数量，对有向图进行图块划分处理，得到预设数量个... 详细信息

标准号: CN117593009A

本申请提供一种基于GPU并行加速的循环转账检测方法及装置，涉及金融数据分析等技术领域，该方法包括：获取待处理的交易数据对应的有序哈希表，创建有序哈希表对应的有向图；根据预设数量，对有向图进行图块划分处理，得到预设数量个图块；针对各图块，采用预设数量个统一计算设备架构CUDA线程中一个CUDA线程，对图块进行环路检测，得到图块对应的数据环路；确定交易数据的数据环路包括各图块对应的数据环路。通过本申请提供的基于GPU并行加速的循环转账检测方法及装置，可以提高得到交易数据的数据环路的效率。

关键词：图块数据环路交易数据预设哈希表有向图线程并行转账统一计算设备架构环路检测金融数据检测申请创建分析

来源：评论

学校读者我要写书评

暂无评论

基于显卡资源的语音特征提取方法、装置、设备及介质

基于显卡资源的语音特征提取方法、装置、设备及介质

引用

作者：周定军彭俊清王健宗 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

本发明涉及自然语言处理技术、应用到语音识别技术领域，公开了一种基于显卡资源的语音特征提取方法、装置、设备及介质，用于提高语音识别效率。方法部分包括：从Kaldi平台中获取已训练好的语音识别网络模型；根据显卡资源信息和所述... 详细信息

标准号: CN113450770B

本发明涉及自然语言处理技术、应用到语音识别技术领域，公开了一种基于显卡资源的语音特征提取方法、装置、设备及介质，用于提高语音识别效率。方法部分包括：从Kaldi平台中获取已训练好的语音识别网络模型；根据显卡资源信息和所述语音识别网络模型，预先申请目标GPU上下文资源，并为已训练好的语音识别深度学习模型分配对应的目标显存；将所述语音识别网络模型加载至所述目标显存，并在所述目标GPU上下文资源创建一个或多个统一计算设备架构CUDA流；获取原始语音信息，在所述目标显存中，利用一个或多个所述CUDA流调用所述语音识别网络模型对所述原始语音信息进行特征提取。

关键词：语音识别网络模型显存原始语音信息显卡资源统一计算设备架构自然语言处理技术语音识别技术语音特征提取模型分配特征提取资源创建加载调用申请应用学习

来源：评论

学校读者我要写书评

暂无评论

基于GPU技术的软件化双通道跟踪接收机的实现

引用

电子质量 2023年第8期 7-11页

作者：扈景召中国西南电子技术研究所四川成都610036

介绍了GPU技术和CUDA编程平台在数字信号处理应用的特点,概述了基于上述平台的航天测控领域的标准TT&C双通道跟踪接收机的总体设计和硬件平台。描述双通道接收机算法原理和软件化实现流程,完成了初步的实现验证,为后续工程基于GPU... 详细信息

介绍了GPU技术和CUDA编程平台在数字信号处理应用的特点,概述了基于上述平台的航天测控领域的标准TT&C双通道跟踪接收机的总体设计和硬件平台。描述双通道接收机算法原理和软件化实现流程,完成了初步的实现验证,为后续工程基于GPU技术和CUDA编程平台的软件化实现提供了基础。

关键词：双通道跟踪接收机图形处理器统一计算设备架构软件实现

来源：评论

学校读者我要写书评

暂无评论

γ光子层析成像与检测及其CUDA加速技术研究

γ光子层析成像与检测及其CUDA加速技术研究

引用

作者：吕港南京航空航天大学

学位级别：硕士

γ光子层析成像技术作为一种无损检测手段,通过探测正电子湮灭产生的一对γ光子,还原被测件受限空间状态的图像,同时γ光子具有抗干扰能力和强穿透力,能够实现在复杂环境下对工业件的检测,因此该技术在工业检测领域拥有十分诱人的前景... 详细信息

γ光子层析成像技术作为一种无损检测手段,通过探测正电子湮灭产生的一对γ光子,还原被测件受限空间状态的图像,同时γ光子具有抗干扰能力和强穿透力,能够实现在复杂环境下对工业件的检测,因此该技术在工业检测领域拥有十分诱人的前景。但是,由于γ光子成像理论和探测技术的限制,容易造成重建图像分辨率不高、边缘模糊以及成像过程速度慢等问题,尤其是在要求成像速度快和分辨率高的工业检测中,应用较少,难以推广。本研究在γ光子层析成像原理基础上改进了成像算法,并提出了针对层析图像的快速特征检测算法,为大空间、大口径探测系统下快速得到边缘清晰且分辨率较高的γ光子层析图像提供了一种可行的解决方案。为了解决层析成像过程中系统矩阵SM(system matrix,SM)精度不高、计算时间长以及存储量大的问题,提出了在统一计算设备架构CUDA(Compute Unified Device Architecture,CUDA)上实现一种优化立体角SM计算的方法。通过对CUDA并行框架和常用系统矩阵构建方法进行分析,研究了一种优化立体角SM计算方法;结合CUDA的并行特点,将SM计算过程划分成互相独立的小块,实现多层次的CUDA加速;采用三元组方法对系统矩阵进行压缩存储。实验结果显示采用优化立体角SM重建的层析图像质量有较好的提升效果,同时与CPU中计算的时间相比,CUDA加速1562×1002、1562×1282和1562×2002这三种不同规模系统矩阵的加速比分别是11.217、20.741和52.751,最终系统矩阵的大小也被压缩成原来的1.83%。为了适应工业检测的需求,进一步加快重建速度和提升图像质量,针对规则受限内腔,将规则内腔轮廓作为先验知识,将系统矩阵改进成只针对层析图像活度区域即感兴趣区域ROI(Region of Interest,ROI)的优化立体角SM,不仅层析图像质量得到了提高,重建速度也加快了 10倍左右。针对不规则受限内腔,研究了一种虚拟盒子法重建层析图像,将系统矩阵改进成只针对层析图像中虚拟盒子部分的优化立体角SM,实验结果显示此方法能够提高图像质量,重建时间也加快了 6.6倍。根据对工业件受限腔体特征检测的需求,研究了在CUDA上实现层析图像特征检测的方法。根据γ光子层析图像的特点,利用CUDA实现一种快速中值滤波与多方向Sobel算子结合的边缘检测算法。实验结果显示本算法对图像的处理效果优于经典算法,同时在CUDA中采用常量内存与共享内存相结合的多内存优化方法,实现缺陷三通模型加速了77.19倍,管道模型加速了 76.84倍,加速效果显著。

关键词： γ光子层析成像技术感兴趣区域统一计算设备架构工业无损检测边缘检测

来源：评论

学校读者我要写书评

暂无评论

神经网络计算图的优化方法、装置及相关设备

神经网络计算图的优化方法、装置及相关设备

引用

作者：雷宇李原朱建斌付尧 519000 广东省珠海市香洲区吉大景山路莲山巷8号正方·云创园8楼B801-803室

本申请提供了一种神经网络计算图的优化方法、装置及相关设备，其中，该神经网络计算图的优化方法，包括：将待优化子图对应的程序转换为以待优化子图的输出数据表示的目标程序；待优化子图为神经网络计算图的子图；建立待优化子图的输... 详细信息

标准号: CN116702855A

本申请提供了一种神经网络计算图的优化方法、装置及相关设备，其中，该神经网络计算图的优化方法，包括：将待优化子图对应的程序转换为以待优化子图的输出数据表示的目标程序；待优化子图为神经网络计算图的子图；建立待优化子图的输出数据的索引与统一计算设备架构CUDA线程索引的对应关系；根据目标程序和对应关系，将待优化子图对应的程序转换为CUDA程序。本申请实施例不用根据算子的类型和算子间的拓扑关系预先定义大量的匹配模板，无需通过与匹配模板大量的样式匹配来进行子图的优化，而是将子图转换成CUDA程序，进而有利于减少定义匹配模板和样式匹配的工作量，提升神经网络计算图的优化效率。

关键词：优化神经网络计算匹配模板程序转换目标程序输出数据算子索引匹配样式统一计算设备架构拓扑关系预先定义图转换线程申请工作量

来源：评论

学校读者我要写书评

暂无评论

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

引用

科学技术与工程 2021年第31期21卷 13268-13276页

作者：韩思旭陈小斌陈卫营罗强宋婉婷广东省地球物理探矿大队广州510800 广东省地质物探工程勘察院广州510800 中国地震局地壳应力研究所北京100085 中国科学院地质与地球物理研究所中国科学院矿产资源研究重点实验室北京100029

并行计算是提高音频大地电磁(audio-frequency magnetotelluric,AMT)数据反演效率的有效途径。在统一计算设备架构(compute unified device architecture,CUDA)下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU(graphics processing unit)强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。

关键词：音频大地电磁法并行计算二维反演统一计算设备架构加速比

来源：评论

学校读者我要写书评

暂无评论

基于CUDA架构下的直方图均衡并行算法

引用

桂林理工大学学报 2021年第3期41卷 654-663页

作者：肖汉肖诗洋孙陆鹏郭宝云郑州师范学院信息科学与技术学院郑州450044 东北林业大学土木工程学院哈尔滨150040 山东理工大学建筑工程学院山东淄博255000

为了提高图像对比度,解决传统的直方图均衡算法处理速度慢的问题,提出了基于统一计算设备架构(CUDA)的直方图均衡图像实时处理加速方案。利用图形处理器(GPU)强大的计算能力和CUDA优化的存储器结构,以加速直方图均衡中的图像灰度级投票... 详细信息

为了提高图像对比度,解决传统的直方图均衡算法处理速度慢的问题,提出了基于统一计算设备架构(CUDA)的直方图均衡图像实时处理加速方案。利用图形处理器(GPU)强大的计算能力和CUDA优化的存储器结构,以加速直方图均衡中的图像灰度级投票、分布概率累加并映射以及图像新的灰度值填充等功能进行运算。在CUDA条件下,对直方图均衡算法进行串-并行分析,分别从粗粒度与细粒度角度进行并行设计,通过实验测定进行了设计参数寻优,获得了线程块设计参数的最优尺寸。结果表明,基于CUDA的图像直方图均衡并行算法的性能相比基于CPU的串行算法和基于开放多处理(OpenMP)并行算法分别获得了61.58和32.00倍的加速比,能够为大规模实时性图像处理系统设计提供参考。

关键词：直方图均衡图像增强图形处理器统一计算设备架构并行算法

来源：评论

学校读者我要写书评

暂无评论

基于CUDA的任意非结构化LDPC码的高吞吐量并行译码设计与实现

引用

微电子学与计算机 2022年第1期39卷 54-61页

作者：王若天沙金南京大学电子科学与工程学院江苏南京210023

由于非结构化的低密度奇偶校验码(LDPC)具有更优异的纠错性能而受到广泛关注,但其非零元素分布较不规律且没有循环或准循环的子矩阵的构造方式,增加了译码器实现的设计难度.本文提出了基于CUDA的译码器设计,用于支持任意非结构化LDPC码... 详细信息

由于非结构化的低密度奇偶校验码(LDPC)具有更优异的纠错性能而受到广泛关注,但其非零元素分布较不规律且没有循环或准循环的子矩阵的构造方式,增加了译码器实现的设计难度.本文提出了基于CUDA的译码器设计,用于支持任意非结构化LDPC码的高吞吐量并行译码.利用校验矩阵压缩重排、优化信息存储等手段,设计实现GPU上高效的并行译码内核进行多帧译码.在GTX1660Ti GPU平台上的结果表明,基于TPMP流程的LLR-BP和NMSA译码内核设计吞吐量可分别达到78.88~360.25 Mbps和174.38~1323.75 Mbps,实现了面向任意非结构化LDPC码的高效并行译码.

关键词：低密度奇偶校验码(LDPC) 非结构化LDPC 置信度传播算法统一计算设备架构异构计算

来源：评论

学校读者我要写书评

暂无评论

图像编解码工具的构建方法、图像编码、解码方法及装置

图像编解码工具的构建方法、图像编码、解码方法及装置

引用

作者：杨现 200010 上海市黄浦区中山南路1号11层(名义楼层)11V6室

本申请实施例公开了一种图像编解码工具的构建方法、图像编码、解码方法及装置，首先将封装Python调用接口的NVIDIA图像处理库作为第一编解码模块，并将封装Python调用接口的统一计算设备架构编解码算法作为第二编解码模块其中，统一计... 详细信息

标准号: CN116781921A

本申请实施例公开了一种图像编解码工具的构建方法、图像编码、解码方法及装置，首先将封装Python调用接口的NVIDIA图像处理库作为第一编解码模块，并将封装Python调用接口的统一计算设备架构编解码算法作为第二编解码模块其中，统一计算设备架构编解码算法是在统一计算设备架构上实现的。利用格式签名和头信息将第一编解码模块和第二编解码模块封装成图像编解码工具。以此构建的图像编解码工具可以提高图像编码和解码的效率。同时，第一编解码模块和第二编解码模块均封装了Python调用接口，从而使得图像编解码工具可以提供Python支持。

关键词：编解码模块图像编解码统一计算设备架构封装调用接口编解码算法图像编码构建解码方法及装置图像处理库头信息申请

来源：评论

学校读者我要写书评

暂无评论

基于GPU的LLE算法加速及性能优化

引用

计算机工程与设计 2021年第5期42卷 1314-1322页

作者：李繁严星张晓宇新疆财经大学网络与实验教学中心新疆乌鲁木齐830012 新疆财经大学信息管理学院新疆乌鲁木齐830012

为提高非线性数据降维算法效能,分析这类算法的特点,综合考虑KNN计算和解决Sparse特征值两个问题,提出将LLE算法中的KNN搜索算法及大型稀疏矩阵解特征值这两个部分并行在GPU的运算平台上,通过这种方法来加快所有基于LLE发展而来的数据... 详细信息

为提高非线性数据降维算法效能,分析这类算法的特点,综合考虑KNN计算和解决Sparse特征值两个问题,提出将LLE算法中的KNN搜索算法及大型稀疏矩阵解特征值这两个部分并行在GPU的运算平台上,通过这种方法来加快所有基于LLE发展而来的数据降维技术的执行时间。仿真计算结果表明,在KNN方面整体加速可达40至50倍,在解大型稀疏矩阵特征值的部分加速至10倍左右。整体来说,数据降维算法加速10倍左右,有效运用GPU提高了LLE这类算法的性能。

关键词：图形处理器统一计算设备架构 LLE算法 KNN搜索降维

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：