您好,读者! 请
登录
内蒙古大学图书馆
首页
概况
本馆概况
组织机构
入馆须知
规章制度
馆藏布局
参观与访问图书馆
党建
资源
馆藏资源
电子资源
数据库导航
特色资源
服务
办证服务
图书借阅
阅读推广
文献传递与馆际互借
空间与设施
开放时间
iThenticate论文原创性检测服务
科研支持
论文收录引用证明
科技查新
知识产权
档案馆
帮助
联系我们
地理位置
新生指南
常见问题
图书捐赠
咨询与建议
建议与咨询
留下您的常用邮箱和电话号码,以便我们向您反馈解决方案和替代方法
您的常用邮箱:
*
您的手机号码:
*
问题描述:
当前已输入0个字,您还可以输入200个字
全部搜索
期刊论文
图书
学位论文
标准
纸本馆藏
外文资源发现
数据库导航
超星发现
本站搜索
搜 索
高级检索
分类表
所选分类
----=双击删除一行=----
>>
<<
限定检索结果
标题
作者
主题词
出版物名称
出版社
机构
学科分类号
摘要
ISBN
ISSN
基金资助
索书号
标题
标题
作者
主题词
出版物名称
出版社
机构
学科分类号
摘要
ISBN
ISSN
基金资助
索书号
作者
标题
主题词
出版物名称
出版社
机构
学科分类号
摘要
ISBN
ISSN
基金资助
索书号
作者
作者
标题
主题词
出版物名称
出版社
机构
学科分类号
摘要
ISBN
ISSN
基金资助
索书号
确 定
文献类型
40 篇
期刊文献
35 篇
学位论文
7 篇
会议
馆藏范围
82 篇
电子文献
0 种
纸本馆藏
日期分布
学科分类号
66 篇
工学
30 篇
计算机科学与技术...
19 篇
机械工程
14 篇
软件工程
6 篇
控制科学与工程
5 篇
信息与通信工程
5 篇
网络空间安全
3 篇
仪器科学与技术
3 篇
电子科学与技术(可...
3 篇
交通运输工程
3 篇
核科学与技术
3 篇
生物医学工程(可授...
3 篇
生物工程
2 篇
航空宇航科学与技...
1 篇
光学工程
1 篇
测绘科学与技术
1 篇
地质资源与地质工...
8 篇
理学
4 篇
数学
2 篇
物理学
1 篇
地理学
4 篇
管理学
4 篇
管理科学与工程(可...
1 篇
艺术学
1 篇
设计学(可授艺术学...
主题
82 篇
统一计算架构
33 篇
图形处理器
18 篇
并行计算
8 篇
图形处理单元
4 篇
gpu
3 篇
平行运算
3 篇
加速比
2 篇
图像分割
2 篇
软体定义无线电
2 篇
gpu通用计算
2 篇
计数器模式
2 篇
高级加密标准
2 篇
期权定价
2 篇
纳米分子动力学
2 篇
实时
2 篇
二叉树模型
2 篇
绘图处理器
2 篇
实时仿真
2 篇
电磁散射
2 篇
加速效率
机构
7 篇
湖南大学
6 篇
中国科学技术大学
5 篇
国立台湾大学
4 篇
吉林大学
4 篇
中国科学院深圳先...
3 篇
湖南城市学院
3 篇
上海理工大学
2 篇
华中科技大学
2 篇
中国科学院
2 篇
西安交通大学
2 篇
清华大学
2 篇
武汉科技大学
2 篇
西安电子科技大学
2 篇
北京大学
2 篇
南京理工大学
1 篇
青海大学
1 篇
大连理工大学
1 篇
北京交通大学
1 篇
国防科学技术大学
1 篇
桂林电子科技大学
作者
4 篇
刘涛
4 篇
文高进
4 篇
彭蓉
4 篇
桂叶晨
3 篇
李肯立
3 篇
李熙铭
3 篇
陈庆奎
3 篇
费雄伟
3 篇
阳王东
2 篇
王超
2 篇
解文博
2 篇
蔡勇
2 篇
杜家宜
2 篇
欧阳丹彤
2 篇
张云泉
2 篇
何丽莉
2 篇
陈彬
2 篇
白洪涛
1 篇
王士同
1 篇
贺毅辉
语言
75 篇
中文
7 篇
英文
检索条件
"主题词=统一计算架构"
共
82
条 记 录,以下是1-10
订阅
全选
清除本页
清除全部
题录导出
标记到"检索档案"
详细
简洁
排序:
相关度排序
时效性降序
时效性升序
相关度排序
相关度排序
时效性降序
时效性升序
统一计算架构
下的装配精度并行
计算
模型
收藏
分享
引用
西安交通大学学报
2023年 第6期57卷 105-114页
作者:
苏裕林
刘浩
苏琦
贾康
洪军
西安交通大学现代设计与轴承转子教育部重点实验室
西安710049
西安交通大学软件学院
西安710049
西安交通大学机械工程学院
西安710049
针对复杂装配体在多指标需求下装配精度
计算
效率低下的问题,提出了
一
种基于
统一计算架构
(CUDA)的多误差传递路径装配精度并行
计算
模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作...
详细信息
针对复杂装配体在多指标需求下装配精度
计算
效率低下的问题,提出了
一
种基于
统一计算架构
(CUDA)的多误差传递路径装配精度并行
计算
模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作为误差传递单元,通过构建姿态变换和误差传递模型,分解误差传递过程,为后续并行
计算
提供支持;然后,对多功能需求(FR)误差传递路径按类型特征进行路径合并和误差旋量复用,减少
计算
量和数据生成量;最后,设
计算
法数据结构,根据任务需求分配线程任务、合理分配内存及降低访存时延。采用该模型对某型航发高压压气机转子的装配精度进行仿真
计算
,结果表明:与传统CPU模型相比,所提模型的装配精度
计算
速度提高了约97.3倍,能够为复杂装配体的装配精度
计算
和公差设计提供支持。
关键词:
公差设计
装配特征
装配精度
统一计算架构
并行
计算
来源:
评论
学校读者
我要写书评
暂无评论
基于
统一计算架构
的人体受照剂量实时仿真评估方法
收藏
分享
引用
辐射研究与辐射工艺学报
2015年 第6期33卷 41-47页
作者:
杨子辉
王静
何桃
宋婧
龙鹏程
中国科学技术大学
合肥230027
中国科学院核能安全技术研究所中国科学院中子输运理论与辐射安全重点实验室
合肥230031
基于
统一计算架构
(Compute unified device architecture,CUDA),利用GPU的流多处理器和共享显存实现了辐射环境中人体体素级受照剂量的并行
计算
。通过加速器驱动次临界系统散裂靶质子束窗的维修更换仿真例题的测试,百万量级体素人体受...
详细信息
基于
统一计算架构
(Compute unified device architecture,CUDA),利用GPU的流多处理器和共享显存实现了辐射环境中人体体素级受照剂量的并行
计算
。通过加速器驱动次临界系统散裂靶质子束窗的维修更换仿真例题的测试,百万量级体素人体受照剂量
计算
时间降低到10 ms的量级,能够保持与实时维修仿真同步。该方法能够满足维修仿真对维修人员的器官当量剂量和人体有效剂量
计算
的实时性要求,可应用到维修方案的实时仿真推演,对提高维修方案的设计与验证效率,辅助优化方案和保障人员辐射安全具有重要意义。
关键词:
受照剂量评估
并行
计算
统一计算架构
实时仿真
来源:
评论
学校读者
我要写书评
暂无评论
基于GPU的椭圆曲线运算库及相关算法优化
收藏
分享
引用
信息安全学报
2024年 第6期9卷 1-16页
作者:
高钰洋
张健宁
王刚
苏明
刘晓光
南开大学计算机学院网络空间安全学院
天津300350
贵州大学公共大数据国家重点实验室
贵阳550025
数据与智能系统安全教育部重点实验室
天津300350
在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优...
详细信息
在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优化也在近几年获得了广泛的关注与研究。本文充分利用GPU作为众核处理器的优势,设计了基于GPU的椭圆曲线运算库。在运算库中,本文在GPU上实现并优化了常用的椭圆曲线运算与大数运算,同时针对不同的需求设计了不同的实现与接口。本文对寄存器与常量内存等存储空间进行了合理分配,并通过利用预
计算
等优化手段减少了
计算
量,从而最大化了运算库的吞吐与性能。为了验证运算库的实用性与有效性,本文利用该运算库实现了代理重加密与Bulletproofs范围证明的验证算法,同时充分利用了算法的内部并行性进行优化。实验表明,本文实现的运算库在各个运算中都取得了远超于OpenSSL等常用CPU端运算库的性能。基于该运算库实现的代理重加密算法相比CPU实现能达到最高145倍左右的加速比,Bulletproofs范围证明验证算法相比于CPU端实现也能达到5.57倍左右的加速效果,平均证明验证时间在1 ms内,可以满足数字货币隐私保护场景下超过每秒2000笔交易的性能需求。可见该运算库能为区块链系统隐私保护等对密码学
计算
具有高吞吐需求的场景提供坚实支持。
关键词:
椭圆曲线
图形处理单元
统一计算架构
范围证明
代理重加密
来源:
评论
学校读者
我要写书评
暂无评论
GRAPES动力框架中大规模稀疏线性系统并行求解及优化
收藏
分享
引用
计算
机工程
2022年 第1期48卷 149-154,162页
作者:
张琨
贾金芳
严文昕
黄建强
王晓英
青海大学计算机技术与应用系
西宁810016
清华大学计算机科学与技术系
北京100084
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统
计算
性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解...
详细信息
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统
计算
性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对
计算
性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。
关键词:
稀疏线性系统
广义共轭余差法
信息传递接口
OpenMP编程
统一计算架构
来源:
评论
学校读者
我要写书评
暂无评论
协同CPU和GPU的核密度估计及其可视化算法
收藏
分享
引用
地理空间信息
2024年 第6期22卷 29-33,47页
作者:
胡森
高苏
蔡忠亮
武汉大学资源与环境科学学院
湖北武汉430079
云南省地图院
云南昆明650034
大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU
计算
核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了
一
种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控...
详细信息
大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU
计算
核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了
一
种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控制能力、GPU的并行
计算
能力以及OpenGL中的核心模式,并借助显存映射,同时优化了核密度估计的
计算
和可视化2方面。实验结果表明,相较于CPU并行和串行算法,该算法的执行效率分别提高了约5倍和20倍,且随着图像分辨率的提高,加速比呈现逐步上升的趋势。
关键词:
核密度估计
可视化
GPU
OpenGL
统一计算架构
来源:
评论
学校读者
我要写书评
暂无评论
松耦合组件式GPU生态迁移适配系统研究
收藏
分享
引用
通信世界
2023年 第23期 41-43页
作者:
邓玲
中国联通广东省分公司
在英伟达GPU芯片进口受限的大环境下,AI-GPU算力芯片及其他算力芯片的国产化替代,是当前我国AI产业发展的必经之路。虽然当前国内各大厂商都推出了各具特色的GPU芯片,但英伟达公司在长期发展过程中构建了除算力芯片外的CUDA(Compute Uni...
详细信息
在英伟达GPU芯片进口受限的大环境下,AI-GPU算力芯片及其他算力芯片的国产化替代,是当前我国AI产业发展的必经之路。虽然当前国内各大厂商都推出了各具特色的GPU芯片,但英伟达公司在长期发展过程中构建了除算力芯片外的CUDA(Compute Unified Device Architecture,
统一计算架构
)软件生态,这也构成了英伟达GPU芯片的核心竞争力。
关键词:
统一计算架构
GPU
组件式
国产化替代
松耦合
核心竞争力
适配系统
AI
来源:
评论
学校读者
我要写书评
暂无评论
基于CUDA的SKINNY加密算法并行实现与分析
收藏
分享
引用
计算
机应用
2021年 第4期41卷 1136-1141页
作者:
解文博
韦永壮
刘争红
广西密码学与信息安全重点实验室(桂林电子科技大学)
广西桂林541004
广西无线宽带通信与信号处理重点实验室(桂林电子科技大学)
广西桂林541004
针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出
一
种基于图形处理器(GPU)的快速实现方法。首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计...
详细信息
针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出
一
种基于图形处理器(GPU)的快速实现方法。首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案。实验结果表明,与传统的CPU实现方法下的SKINNY算法相比,基于
计算
统一
设备
架构
(CUDA)实现的SKINNY算法的效率和吞吐量得到很大提升。具体来说,当处理的数据达到16 MB及以上时,在所提实现方法下,SKINNY算法的ECB模式的加速效率提升峰值为99.85%,加速比峰值为671,CTR模式的加速效率提升峰值为99.87%,加速比峰值为765;而与已有AES-256(ECB)和SKINNY_ECB并行算法比较,新提出的SKINNY-256(ECB)并行算法的吞吐量分别是它们的吞吐量的1.29倍和2.55倍。
关键词:
SKINNY密码算法
并行
计算
统一计算架构
图形处理器
电子密码本模式
计数器模式
来源:
评论
学校读者
我要写书评
暂无评论
基于GPU和切片的分组密码算法高速实现方法研究
基于GPU和切片的分组密码算法高速实现方法研究
收藏
分享
引用
作者:
解文博
桂林电子科技大学
学位级别:
硕士
分组密码由于在软硬件上实现便捷,常被用于数据加密及隐私保护。如何在大数据环境下,对分组密码进行高速实现,以提供安全支持,成为学术界与工业界讨论的热点问题。关于分组密码的快速实现可以在软硬件两大方面进行优化,在硬件方面的优...
详细信息
分组密码由于在软硬件上实现便捷,常被用于数据加密及隐私保护。如何在大数据环境下,对分组密码进行高速实现,以提供安全支持,成为学术界与工业界讨论的热点问题。关于分组密码的快速实现可以在软硬件两大方面进行优化,在硬件方面的优化主要是利用图形处理器(GPU)实现,基于GPU的多线程、适合并行
计算
等优点对算法进行优化实现;在软件方面的优化主要是切片技术的应用,基于切片技术在软件实现中模拟硬件的实现方式的思想进而达到提升实现性能的目的。本文基于GPU和切片技术,研究分组密码的算法高速实现方法,工作内容包括:1.提出
一
种针对SKINNY加密算法在GPU下的快速实现方案。基于SKINNY密码算法结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案。研究结果表明:基于CUDA实现的SKINNY算法的效率和吞吐量得到较大提升,其中ECB模式的加速效率峰值为99.85%,加速比峰值为671,CTR模式加速效率峰值为99.87%,加速比峰值为765。与已有AES和SKINNY并行算法比较,新提出的SKINNY并行算法的吞吐量分别是其它们的吞吐量的1.29倍和2.55倍。2.提出
一
种针对国密算法SM4的GPU并行方案。通过对分组密码SKINNY算法的分析和实现推广到对国密算法SM4的研究,基于SM4密码算法的结构特征,结合CUDA的特性,通过页锁定内存和CUDA流的引入,对SM4算法进行优化,提升其性能。实验结果表明:SM4算法在最终获得的加速比峰值为89,吞吐量峰值可达31.41Gbps。与已有SM4并行算法相比,本文的实现结果最高有了3.44倍的性能提升。3.提出
一
种基于GPU和固定切片技术的AES算法快速实现新方案。基于AES的结构特点,在CUDA下通过将AES某些切片进行固定,并对其线性层进行相应的调整,进而提升该算法性能。进
一
步地采用全比特固定和半比特固定实现AES,发现两种方法所用时间和数据吞吐量相差不大,但半比特固定实现所用操作数更少。研究结果表明:固定切片技术的应用能够提升AES算法的性能,并提高其空间利用率;应用固定切片技术实现AES算法,在CPU和GPU下分别有2.60和5.88倍的性能提升,GPU下获得的加速比峰值达到310。与已有AES并行算法相比,本文的实现结果最高有了21.6倍的性能提升。
关键词:
分组密码
图形处理器
统一计算架构
比特切片
并行技术
来源:
评论
学校读者
我要写书评
暂无评论
基于CPU和GPU的雷达目标识别算法并行实现
基于CPU和GPU的雷达目标识别算法并行实现
收藏
分享
引用
作者:
钟银都
西安电子科技大学
学位级别:
硕士
现代战争对雷达的自动化和智能化水平提出了较高的要求,以雷达目标识别为代表的智能信息处理技术受到了广泛的关注。随着雷达信号带宽的持续提高以及识别数据库中目标种类的不断增加,给实时地完成目标识别任务带来了极大的挑战。由于雷...
详细信息
现代战争对雷达的自动化和智能化水平提出了较高的要求,以雷达目标识别为代表的智能信息处理技术受到了广泛的关注。随着雷达信号带宽的持续提高以及识别数据库中目标种类的不断增加,给实时地完成目标识别任务带来了极大的挑战。由于雷达目标识别任务具有良好的并行结构,高效的并行处理算法成为了目标识别技术领域的研究热点。与此同时,以中央处理器(CPU)和图形处理器(GPU)为代表的硬件处理器的并行处理能力也越来越强大,这为雷达目标识别算法的并行加速提供了可能。基于上述背景,本文开展了雷达高分辨距离像(HRRP)识别相关算法的并行设计研究,并在多核心CPU处理器硬件平台和CPU+GPU的异构平台下进行了算法实现。主要工作内容概括如下:1.结合线性调频脉冲体制雷达HRRP识别流程,对每个环节常用算法的原理进行阐述。首先介绍了针对大时宽带宽信号脉冲压缩处理的分段脉冲压缩算法;然后介绍了针对相参积累期间目标越距离单元走动问题的Keystone变换及其两种常用实现方式,即DFT+IFFT算法和Chirp-Z算法;接着介绍了针对HRRP数据敏感性问题的常用预处理方法;最后介绍了四种经典的统计识别模型和卷积神经网络识别模型。2.阐述了CPU和GPU处理器硬件结构的区别,然后给出了针对多核心CPU处理器并行编程的C++11多线程编程方法,以及针对NVIDIA GPU处理器并行编程的
统一计算架构
(CUDA)的编程、执行模型。最后给出了CUDA并行编程的调试分析方法及内核优化技巧。3.详细分析了HRRP识别流程中各算法的并行结构,针对性地设计了相应的并行实现方案,完成了各个算法在CPU平台下的单线程实现和多线程并行实现以及在CPU+GPU平台下的多线程并行实现。通过仿真实验检验了各算法在两种并行实现方式下的运行结果,并以CPU单线程运行时间为基准,对比分析了两种并行实现方式下的加速效果。其中,分段脉冲压缩算法、DFT+IFFT算法、Chirp-Z算法、迭代对齐算法、最大相关系数(MCC)分类器和自适应高斯分类器(AGC)的建模、MCC识别、AGC识别、因子分析(FA)建模和复因子分析(CFA)建模过程的CPU多线程实现可以达到3~5倍的加速效果,相应的GPU并行实现也都可以达到5倍以上的加速效果;此外,基于卷积神经网络的识别方法也取得了
一
定的加速效果。这说明基于CPU的多线程并行实现方式和基于CPU+GPU异构平台的并行实现方式能够显著提升雷达目标识别任务的实时性。
关键词:
高分辨距离像
目标识别
多线程
并行
计算
统一计算架构
来源:
评论
学校读者
我要写书评
暂无评论
实时多车道车辆计数方法
收藏
分享
引用
计算
机工程与设计
2019年 第5期40卷 1383-1389页
作者:
王超
陈庆奎
上海理工大学光电信息与计算机工程学院
上海200093
为智能检测多车道车辆数目,提出
一
种实时多车道车辆计数方法。利用运动车辆完成整个车道区域提取排除非车道区域的干扰,在道路背景重建得到无车辆遮挡的道路背景后完成车道线检测和拟合,得到多车道区域;在此基础上,通过提取车尾灯红色...
详细信息
为智能检测多车道车辆数目,提出
一
种实时多车道车辆计数方法。利用运动车辆完成整个车道区域提取排除非车道区域的干扰,在道路背景重建得到无车辆遮挡的道路背景后完成车道线检测和拟合,得到多车道区域;在此基础上,通过提取车尾灯红色区域并建立相应的匹配规则匹配成对车尾灯,解决车辆并排同速问题,完成车辆计数的任务,实现多车道车辆计数。在CUDA平台下使用图像处理器(GPU)NVIDIA GTX680显卡对算法进行加速,可以达到28ms/帧的处理速率,验证了算法的实时性。
关键词:
智能检测
多车道区域
背景重建
匹配规则
统一计算架构
来源:
评论
学校读者
我要写书评
暂无评论
没有更多数据了...
下一页
全选
清除本页
清除全部
题录导出
标记到“检索档案”
共9页
<<
<
1
2
3
4
5
6
7
8
9
>
>>
检索报告
对象比较
合并检索
0
隐藏
清空
合并搜索
回到顶部
执行限定条件
内容:
评分:
请选择保存的检索档案:
新增检索档案
确定
取消
请选择收藏分类:
新增自定义分类
确定
取消
订阅名称:
通借通还
温馨提示:
图书名称:
借书校区:
取书校区:
手机号码:
邮箱地址:
一卡通帐号:
电话和邮箱必须正确填写,我们会与您联系确认。
联 系 人:
所在院系:
联系邮箱:
联系电话:
暂无评论