检索结果-内蒙古大学图书馆

您好，读者！请登录

内蒙古大学图书馆

首页
概况
党建
资源
服务
科研支持
- 论文收录引用证明
- 科技查新
知识产权
档案馆
帮助

咨询与建议

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

您的常用邮箱：*

您的手机号码：*

问题描述：

当前已输入0个字，您还可以输入200个字

全部搜索
期刊论文
图书
学位论文
标准
纸本馆藏
外文资源发现
数据库导航
超星发现

高级检索

时间限定

出版年份：

文献类型

图书期刊文献学位论文多媒体

馆藏选择

电子馆藏纸本馆藏

核心期刊

全部期刊 SCI 收录期刊 SSCI 收录期刊 EI 收录期刊 CSCD 收录期刊 CSSCI 收录期刊

语言

中文英文

文献类型

期刊文献图书学位论文标准纸本馆藏

帮助

文字说明：

T=题名（书名、题名），A=作者（责任者），K=主题词，P=出版物名称，PU=出版社名称，O=机构（作者单位、学位授予单位、专利申请人），L=中图分类号，C=学科分类号，U=全部字段，Y=年（出版发行年、学位年度、标准发布年）

检索规则说明：

AND代表“并且”；OR代表“或者”；NOT代表“不包含”；(注意必须大写,运算符两边需空一格)

检索范例：

范例一：(K=图书馆学 OR K=情报学) AND A=范并思 AND Y=1982-2016
范例二：P=计算机应用与软件 AND (U=C++ OR U=Basic) NOT K=Visual AND Y=2011-2016

分类表

所选分类

>> <<

限定检索结果

文献类型

55 篇 学位论文
39 篇 期刊文献
5 篇 会议

馆藏范围

99 篇 电子文献
0 种 纸本馆藏

日期分布

学科分类号

93 篇 工学
- 47 篇 计算机科学与技术...
- 35 篇 机械工程
- 21 篇 软件工程
- 6 篇 控制科学与工程
- 6 篇 生物医学工程（可授...
- 5 篇 信息与通信工程
- 4 篇 生物工程
- 4 篇 网络空间安全
- 3 篇 电子科学与技术（可...
- 3 篇 航空宇航科学与技...
- 2 篇 光学工程
- 2 篇 仪器科学与技术
- 2 篇 电气工程
- 2 篇 水利工程
- 2 篇 地质资源与地质工...
8 篇 理学
- 5 篇 数学
- 1 篇 物理学
- 1 篇 天文学
- 1 篇 大气科学
5 篇 管理学
- 5 篇 管理科学与工程(可...
2 篇 医学
- 1 篇 基础医学(可授医学...
- 1 篇 公共卫生与预防医...
1 篇 艺术学
- 1 篇 设计学（可授艺术学...

主题

99 篇 gpu通用计算
25 篇 并行计算
19 篇 cuda
11 篇 图形处理器
6 篇 opencl
6 篇 高性能计算
5 篇 虚拟化
4 篇 统一计算设备架构
3 篇 三维重建
3 篇 深度学习
2 篇 运动目标检测
2 篇 统一计算架构
2 篇 太阳物理
2 篇 天文应用
2 篇 合成孔径雷达
2 篇 超级计算
2 篇 异构计算
2 篇 成像算法
2 篇 口令恢复
2 篇 集群系统

机构

11 篇 上海交通大学
6 篇 华中科技大学
5 篇 南京航空航天大学
4 篇 东南大学
4 篇 西安电子科技大学
4 篇 吉林大学
3 篇 河南城建学院
3 篇 中国科学院研究生...
3 篇 武汉科技大学
3 篇 中国石油大学
3 篇 浙江大学
3 篇 北京工业大学
2 篇 复旦大学
2 篇 兰州大学
2 篇 辽宁师范大学
2 篇 中国科学院国家天...
2 篇 重庆大学
2 篇 中国科学院国家天...
2 篇 北京大学
2 篇 厦门大学

作者

3 篇 张云洲
3 篇 李国徽
3 篇 崔雪冰
3 篇 张玉洁
3 篇 陈彬
3 篇 牛玉美
2 篇 zhang lei
2 篇 申宝明
2 篇 李晓卉
2 篇 杨潇
2 篇 吕相文
2 篇 chen bin
2 篇 张倩芸
2 篇 wang guangsheng
2 篇 张德好
2 篇 张延红
2 篇 彭勃
2 篇 林钢华
2 篇 朱小帅
2 篇 陈和平

语言

99 篇 中文

检索条件"主题词=GPU通用计算"

共 99 条记录，以下是71-80 订阅

全选清除本页清除全部题录导出标记到"检索档案"

详细简洁

排序：

多视角立体视频编解码的关键技术研究

多视角立体视频编解码的关键技术研究

引用

作者：严恺上海交通大学

学位级别：硕士

随着信息技术、网络技术和多媒体技术的飞速发展,人们对视觉享受的要求一直在不断提高。多视角立体视频系统不但可以提供给用户高清晰视频质量的立体视觉享受,而且可以满足用户从不同角度、不同视点观察真实世界的渴望。未来的视频系统... 详细信息

随着信息技术、网络技术和多媒体技术的飞速发展,人们对视觉享受的要求一直在不断提高。多视角立体视频系统不但可以提供给用户高清晰视频质量的立体视觉享受,而且可以满足用户从不同角度、不同视点观察真实世界的渴望。未来的视频系统可能会以通过增加视频序列数量和提高视频分辨率作为发展主线,多视角立体视频编解码技术的研究具有重要的现实意义。获取场景准确的深度信息是立体视频高效编码和立体图像处理的基础。本文给出了一种用于立体图像匹配的改进置信传播算法。基于视差场的连续性假设,传统视差估计置信传播算法将稠密视差场抽象为一种马尔可夫场,置信传播在消息双向传递的马尔可夫网络上进行。考虑到在物体遮挡区域视差场并不连续,本文首先采用基于彩色权重的初始视差估计和交叉不稳定检测技术检测出遮挡区域,将稠密视差场更加精确的抽象为一种马尔可夫场和贝叶斯场的混合场,置信传播在马尔可夫和贝叶斯的混合网络上进行,使得遮挡区域像素视差信息不传递给非遮挡区域,提高了视差估计精度并降低了算法复杂度。本文采用Middlebury网站提供的标准测试图像对本文算法进行了客观评估,实验结果表明,本文算法同时具有较好的视差估计精度和运算效率,截止2010年1月,本文算法在Middlebury网站上的精度综合排名为第七名。多视角立体视频由于需要存储传输场景的多个视角视频,数据量是传统二维视频的数倍,研究高效的压缩编码技术对于多视角立体视频的实际运用十分重要。一般而言,多数多视角立体视频编码方案中均会采用视间估计技术来减少多视角视频的视间冗余,本文提出了一种基于深度信息的改进的视间预测补偿快速算法,可以提高视间估计效率。另一方面,本文研究了一种基于深度信息和彩色分割的立体视觉前景区域提取算法,进行了立体视频前后景分割编码方面的尝试,前后景分割编码能够在较低码率下改善前景区域图像质量,并在一定程度上提高视频的立体观感。由于多视角立体视频需要在解码端同步多个视角视频的实时解码,研究如何提高解码端的实时解码能力具有重要的现实意义。本文提出了一种基于CPU和gpu混合运算的多视角立体视频软件解码模型,该模型充分利用了gpu的并行运算能力,加速了解码端IDCT运算和彩色空间变换的运算过程,一定程度上提高了多视角立体视频的软件解码效率。

关键词：深度估计前后景分割编码视间预测补偿 gpu通用计算

来源：评论

学校读者我要写书评

暂无评论

gpu Warp调度算法优化研究

GPU Warp调度算法优化研究

引用

作者：樊朝煜南京大学

学位级别：硕士

随着集成电路技术的快速发展,gpu计算能力不断提升,可编程性不断提高,特别是在CUDA等编程环境出现后,gpu通用计算的复杂性大幅降低,其可编程性、功能、性能都显著提升。gpu已逐渐演变成一个新型可编程高性能并行计算资源,在需要大量计... 详细信息

随着集成电路技术的快速发展,gpu计算能力不断提升,可编程性不断提高,特别是在CUDA等编程环境出现后,gpu通用计算的复杂性大幅降低,其可编程性、功能、性能都显著提升。gpu已逐渐演变成一个新型可编程高性能并行计算资源,在需要大量计算的通用计算领域得到广泛应用。当前在通用计算领域,gpu的计算资源利用率并不高,片外访存等长延迟操作是造成gpu计算资源利用率低的一个重要原因。典型的Warp调度算法并不能较好的隐藏长延迟操作。本文充分分析了各种典型Warp调度算法,其中,轮训调度算法中各个Warp具有相同的优先级,使得各个Warp在相同时间点到达长延迟指令,因此没有多余的Warp来隐藏长延迟;而贪婪调度算法虽然隐藏长延迟指令的能力稍好一些,但是在一定程度上破坏了局部性,降低了缓存命中率,产生更多的片外访存。本文针对上述问题设计了一种基于贪婪算法的两级调度策略,通过两级调度和贪婪调度相结合的方式隐藏长延迟。两级调度就是采用分组的形式来更好地隐藏长延迟操作,调度单元选择一个组进行调度,发射该组中的Warp指令。一旦组内的Warp全部阻塞,就采用轮训调度算法选择其它组进行调度。两级调度策略采用分组的方式防止了所有的Warp因为长延迟操作而同时阻塞,每次只会有一个组发生阻塞,其它组内Warp可以继续调度执行。组内Warp采用贪婪算法调度,避免了各个Warp同时到达长延迟指令,进一步起到了隐藏长延迟操作的效果。经仿真验证,本文设计的基于贪婪算法的两级调度策略与常用的轮训调度算法相比,总体上有7.6%的性能提升,对部分应用程序,该算法有11.2%的性能提升。

关键词： gpu通用计算 Warp调度算法贪婪算法两级调度

来源：评论

学校读者我要写书评

暂无评论

基于多GPgpu并行计算的虚拟化技术研究

基于多GPGPU并行计算的虚拟化技术研究

引用

作者：张玉洁南京航空航天大学

学位级别：硕士

跟CPU相比,gpu在计算能力、能耗上具有显著的优势,被广泛应用于高性能计算领域。虚拟化是云计算的主要支撑技术之一,屏蔽硬件基础设施使多台虚拟机透明地共享集群中的gpu设备,从而降低配置成本,提高资源利用率。目前,gpu通用计算的虚拟... 详细信息

跟CPU相比,gpu在计算能力、能耗上具有显著的优势,被广泛应用于高性能计算领域。虚拟化是云计算的主要支撑技术之一,屏蔽硬件基础设施使多台虚拟机透明地共享集群中的gpu设备,从而降低配置成本,提高资源利用率。目前,gpu通用计算的虚拟化技术尚处于研究阶段,虚拟化环境下资源共享方案普遍缺乏对gpu的有效支持。本文以通用计算框架CUDA为研究对象,设计一种基于多GPgpu并行计算的虚拟化的方案,实现一种可动态调度、支持多任务并发的gpu虚拟化解决方案。具体工作包括以下几个方面:第一,采用动态库拦截的方法将gpu引入虚拟机,设计了基于多gpu计算资源特征的动态分配与管理的架构,该架构分为虚拟化用户层、虚拟化资源管理层和虚拟化资源服务层,解决了gpu通用计算在虚拟化环境下的适应问题,实现gpu资源在多个计算节点间的共享。第二,针对大规模计算任务场景,提出了在虚拟化环境下多gpu并行计算的实现方案,使用多线程或流处理的方式实现多gpu并行计算,分析了gpu多层次存储结构、传输、通信等方面内容,通过实验分别对数据松耦合交互模式(如蒙特卡罗方法)和紧耦合交互模式(如QFT算法)实现多gpu并行计算。第三,提出了一种基于动态负载量多负载状态的gpu负载均衡算法DMLS-gpu(Dynamic and Multi-Load Status algorithm for gpu),通过将负载与gpu设备的硬件能力和任务本身的特性相结合,解决了虚拟化方案中动态评估gpu设备计算能力的问题。实验分析表明,在虚拟化环境下可实现多个CUDA程序并发地使用一块或者多块gpu设备,并验证了本文的虚拟化方案具有良好的可扩展性和高效性。本文工作针对gpu通用计算虚拟化过程中面临的挑战和制约,研究虚拟化环境下的多任务gpu资源共享和多gpu并行计算,以进一步拓展其应用空间。

关键词：虚拟化 gpu通用计算 CUDA 并行计算资源共享

来源：评论

学校读者我要写书评

暂无评论

复杂网络中的重叠社区结构检测算法研究

复杂网络中的重叠社区结构检测算法研究

引用

作者：黄宝林西安电子科技大学

学位级别：硕士

现实世界中的很多系统都是以网络的形式存在，比如在我们人际交往中的关系网络，科研系统中的论文合著关系网，计算机的路由网络，生命科学中的蛋白质网络等等。社区结构是复杂网络一个十分重要的特性，它可以揭示社会网络的隐藏规律和... 详细信息

现实世界中的很多系统都是以网络的形式存在，比如在我们人际交往中的关系网络，科研系统中的论文合著关系网，计算机的路由网络，生命科学中的蛋白质网络等等。社区结构是复杂网络一个十分重要的特性，它可以揭示社会网络的隐藏规律和行为特征。网络社区结构检测问题也成为近些年研究的热点问题，有很多社区检测算法被提了出来。在实际网络中，一个节点往往不能简单的分到某一个社区中，而是被几个相互重叠的社区所共享，比如一个人可以属于科学家社区并且同时也是一个摄影师。检测网络中的重叠社区往往要比传统社区检测复杂很多。在本文中，我们围绕网络重叠社区检测问题展开，主要内容阐述如下：（1）提出了一种基于多目标免疫的重叠社区检测算法。算法将重叠社区检测问题抽象为一个多目标优化问题，并利用非支配邻域免疫算法(NNIA)来对目标函数进行优化。算法通过同时优化两个相互冲突的目标函数来找到满意的社区结构。算法采用了一种新的编码方式以及交叉和变异算子，并使用非负矩阵分解来提高算法的局部搜索能力。算法不仅可以找出网络中的重叠社区，而且可以确定节点属于每个社区的隶属度。（2）针对重叠社区检测问题普遍存在的计算效率过低的问题，我们提出利用gpu来提高重叠社区检测算法的运行效率。通过对贝叶斯非负矩阵分解算法进行并行化提出了P-BNMF算法。另外，针对网络邻接矩阵的存储限制问题，提出了优化版的算法Sparse-NMF算法。该算法利用CSR格式对邻接矩阵进行稀疏表示，只需要存储邻接矩阵中的非零值，以此来节省网络的存储空间。实验表明P-BNMF和Sparse-NMF算法都可以显著提高NMF算法的运行效率，而且Sparse-BNMF算法可以处理更大规模的网络。

关键词：复杂网络重叠社区检测多目标优化非负矩阵分解 gpu通用计算 OpenCL

来源：评论

学校读者我要写书评

暂无评论

基于CUDA加速的运动目标检测

基于CUDA加速的运动目标检测

引用

作者：梁良北京交通大学

学位级别：硕士

运动目标检测是图像处理中一项最基本的课题。在智能视频监控领域,运动目标检测作为检测流程中的关键性算法,占有非常高的地位。因为其运行结果对后续检测分析步骤影响很大,因此人们对运动目标检测算法的检测精度与运行效率都提出了颇... 详细信息

运动目标检测是图像处理中一项最基本的课题。在智能视频监控领域,运动目标检测作为检测流程中的关键性算法,占有非常高的地位。因为其运行结果对后续检测分析步骤影响很大,因此人们对运动目标检测算法的检测精度与运行效率都提出了颇高的要求。传统的运动目标检测算法,有着各方面的优劣特性。一般来说,检测效果好,能够更好的适应复杂多变的场景的算法,有较大的实用价值。但是运行时间长,运行效率低,一般达不到实时性要求。人们希望对一些检测结果优良的复杂算法进行改进,加快运行速度。近些年来,随着显卡硬件的高速发展以及性价比的提升,使用显卡进行通用计算加速,越来越受到人们的关注。gpu通用计算属于高性能并行计算的下属分支,是一种高度强调并行化的计算理念,能够很好的应对重复大数据量运算处理的需求。优化得当,计算加速比能够是CPU的百倍乃至更高。图像处理类的算法,因为大量涉及矩阵运算等操作,一般很容易进行并行化加速处理,而且能够获得很好的性能提升。 CUDA技术是NVIDIA公司推出的一种gpu通用计算编程模型。本文后面就着重讲述使用CUDA对两种复杂度较高的经典运动检测算法——GMM算法和HOG算法,进行并行优化和加速。 GMM和HOG是两个时间复杂度较高,检测结果较好的经典运动目标检测算法,有着很高的实用价值。GMM算法现已经在楼宇监控,路况分析等领域有所应用,但是HOG因其步骤复杂,实现困难,仍未能得到广泛应用。本文就将两种算法进行CUDA并行化,最终达到将算法的运行效率提升到满足实时性要求的目标。最后通过数据分析和比对,得出相关结论。

关键词：运动目标检测并行计算 gpu通用计算 CUDA GMM HOG

来源：评论

学校读者我要写书评

暂无评论

基于gpu的概念格合并算法研究

基于GPU的概念格合并算法研究

引用

作者：王习文西安电子科技大学

学位级别：硕士

概念格理论，也叫形式概念分析（FCA），是一种有效的知识表示与知识发现的工具，已被成功应用于知识工程、机器学习、信息检索、数据挖掘、语义Web、软件工程等许多领域。要使用概念格理论分析数据，就要首先根据数据建造相应的概念格... 详细信息

概念格理论，也叫形式概念分析（FCA），是一种有效的知识表示与知识发现的工具，已被成功应用于知识工程、机器学习、信息检索、数据挖掘、语义Web、软件工程等许多领域。要使用概念格理论分析数据，就要首先根据数据建造相应的概念格，其中的关键问题是建格算法的效率，而提高算法效率的一种有效方法是并行计算。随着硬件图形处理技术的发展，gpu的计算能力得到长足的进步，并开始作为通用计算单元使用。相对于CPU，gpu具有更高的并行性和更低的成本，这使得基于gpu的并行技术很快成为当前并行计算领域的研究热点。本文通过研究国内外建格算法的现状，对比批量式和增量式建格算法的优劣，结合现今gpu通用计算的并行优势，提出了基于gpu的合并建格算法。该算法在gpu上实现，以概念格合并为主要思想。算法首先对形式背景进行冗余处理，排除掉那些不需要进行复杂判断的数据（对象或者属性）;然后根据对象或者属性的存储顺序将背景合理拆分;利用gpu的多线程机制对拆分出来的子背景进行并行建格，此处子背景建格采取的建格算法同样是基于概念格的合并思想（纵向合并）;最后对这些子背景产生的概念格并行横向合并，得到原始形式背景对应的概念格。实验结果证明该算法在一定数据规模下提高了建格效率，因而是有效的。文章最后讨论了该算法可以进行优化的几个方面，包括形式背景划分和动态负载均衡等。

关键词：概念格形式背景拆分概念格合并 gpu通用计算

来源：评论

学校读者我要写书评

暂无评论

gpu加速的若干3D人脸分析与识别算法

GPU加速的若干3D人脸分析与识别算法

引用

作者：傅俊康浙江大学

学位级别：硕士

随着3D扫描设备的日益成熟和CPU计算能力的提高,3D人脸分析与识别算法得到了长足的发展。3D人脸识别不仅具有人脸识别友好,不易伪造等优点,还不像2D人脸识别那样易受光照,姿态变化的影响。不过3D人脸识别对计算能力的高要求是当今限制... 详细信息

随着3D扫描设备的日益成熟和CPU计算能力的提高,3D人脸分析与识别算法得到了长足的发展。3D人脸识别不仅具有人脸识别友好,不易伪造等优点,还不像2D人脸识别那样易受光照,姿态变化的影响。不过3D人脸识别对计算能力的高要求是当今限制它发展和广泛应用的原因之一,一些算法也只能采取它的近似实现,以换取速度的提升如ICP匹配算法。当代gpu以其强大的浮点计算能力,在计算机体系结构中不仅扮演着图形处理器的角色,还开始担当通用计算的重任。在众多领域如天文计算、流体力学模拟、分子动力学仿真等,使用gpu加速的应用获得了数倍,数十倍,甚至上百倍的性能提升。探索gpu通用计算在3D人脸分析与识别算法加速中的应用,这是本人工作的出发点。本文在介绍了3D人脸数据,3D人脸分析与识别的研究现状,及存在的问题,回顾了gpu通用计算的发展,详细介绍的gpu通用计算的开放标准OpenCL的基础上,主要完成了以下几个工作： (1)分析了3D人脸去噪算法尖峰噪声移除、空洞填补、高斯平滑和双边网格去噪。并给出这些算法的gpu实现。 (2)提出了一种基于双模板匹配的任意姿态3D人脸鼻尖点定位算法,并给出了该算法的gpu加速实现。 (3)分析了3D人脸分析和识别领域广泛使用的匹配算法ICP,及其近似快速实现,在此基础上给出了ICP算法的gpu加速实现方案。提出了适合gpu用于严格最近邻点查找的k-d tree实现方法和gpu并行求和算法,并以此实现了ICP算法的gpu加速。

关键词： 3D人脸分析与识别 OpenCL gpu通用计算 3D人脸去噪鼻尖点定位 ICP匹配

来源：评论

学校读者我要写书评

暂无评论

基于OpenCL的多gpu并行计算的研究与应用

基于OpenCL的多GPU并行计算的研究与应用

引用

作者：马俊峰哈尔滨理工大学

学位级别：硕士

异构计算被视为计算机处理器的发展继单核、多核之后的第三个时代，它实现了多种体系架构的处理器间协同运算，有效缓解在提升CPU时钟频率和内核数量的过程中遇到的散热和能耗问题，同时增强了计算平台的可扩展性。异构计算系统通常包含... 详细信息

异构计算被视为计算机处理器的发展继单核、多核之后的第三个时代，它实现了多种体系架构的处理器间协同运算，有效缓解在提升CPU时钟频率和内核数量的过程中遇到的散热和能耗问题，同时增强了计算平台的可扩展性。异构计算系统通常包含除CPU以外的一个或多个协处理器，协处理器一般是包含众多处理核心的专用功能计算设备，只有通过合适的并行程序才能充分利用其并行计算能力。OpenCL是一个为异构设备编写程序的标准框架，虽然它的出现增加了程序在各平台之间的可移植性，但是在多个计算设备协同计算时，多种计算设备的调用、设备间的负载均衡等问题严重制约了它的普及。因此，对异构系统下多设备并行计算的研究具有重要的意义。本文依据OpenCL规范，利用多线程技术实现了多平台下多gpu的调用，分析了不同的任务划分模型对计算性能的影响，优化了存储器间的数据传输。随后，设计了可利用多个gpu辅助加速的两个算法来验证多gpu并行计算研究的可行性，第一个算法为适合较大规模数据的内部排序算法，算法中设计了适合设备端的gpu内部排序算法和主机端的基于败者树数据结构的归并排序算法，与CPU串行排序算法相比，该算法在多gpu的辅助下对较大规模数据的排序运算时，性能提升了十倍左右。另一个算法利用多gpu加速柔性作业车间调度问题的求解，该算法设计了适合gpu架构的数据结构以及基于岛屿模型的遗传算法，利用gpu提高了种群内个体的进化以及个体的评估效率。该算法在多gpu的加速下，与基于CPU的遗传算法求解柔性作业车间调度问题相比，在处理更大种群规模的前提下，在更短的时间内取得了较优的解。

关键词：异构计算开放运算语言 gpu通用计算并行计算

来源：评论

学校读者我要写书评

暂无评论

球谐函数展开快速算法及其并行算法研究

球谐函数展开快速算法及其并行算法研究

引用

作者：王翔国防科学技术大学

学位级别：硕士

计算机技术的迅速发展促进了数值天气预报模式的不断推进,并使偏微分方程离散化相关的数值方法变得更加完善和精确,从而减小了求偏微分方程数值解的误差。谱变换方法采用球谐函数的有限截断展开来逼近球面某垂直层上的状态变量,充分利... 详细信息

计算机技术的迅速发展促进了数值天气预报模式的不断推进,并使偏微分方程离散化相关的数值方法变得更加完善和精确,从而减小了求偏微分方程数值解的误差。谱变换方法采用球谐函数的有限截断展开来逼近球面某垂直层上的状态变量,充分利用变量在物理空间和谱空间之间的适当变换,有效降低偏微分方程中以非线性项为主的计算量,进而获得高精度的计算解。其中物理空间由状态变量在经纬度格点的直积组成,谱空间由状态变量对应的截断球谐函数展开系数组成。谱模式具有精度高、稳定性好等优点,但其运算量和存储量较大。球谐函数展开作为一种数学方法,被广泛应用于数值天气预报模式、地球物理、化学物理、偏微分方程数值解等众多领域。球谐函数是球面纬向微分算子以及球面Laplace算子的特征函数。基于球谐函数的谱变换,是谱模式计算中的核心问题,涉及Fourier变换和Legendre变换,其中Fourier变换应用于经度方向,Legendre变换应用于纬度方向。本文基于Rokhlin-Tygert球谐函数展开快速算法,深入研究了算法的并行化问题,主要内容包括: (1)分析数值天气预报谱模式以及球谐函数的特点,研究了并行计算理论和技术,包括MPI并行、CUDA并行、MPI+CUDA异构并行; (2)深入研究并补充完善了Rokhlin-Tygert球谐函数展开快速算法,增加了0阶标准Legendre多项式展开系数的计算步骤; (3)针对球谐函数展开快速算法,设计了RT并行算法; (4)实现了RT算法的MPI并行程序,并分别在某五万亿次集群和“天河一号”超级计算机上进行测试,其结果均显示:在三角截断波数M ? 1023时,并行效率可达87%以上; (5)实现了RT算法的MPI+CUDA异构并行程序,调用了CULA库函数。“天河一号”上的实验结果显示:CUDA的加速效果在M ? 1023时逐渐显著,单节点双进程布局的并行效率随M的增大而增长并超过单节点单进程;在M ?4095时,使用512节点1024进程可获得超过6700的加速比。

关键词：球谐函数展开并行算法 gpu通用计算 CULA MPI+CUDA

来源：评论

学校读者我要写书评

暂无评论

基于gpu的深度学习算法并行化研究

基于GPU的深度学习算法并行化研究

引用

作者：晋雅茹东南大学

学位级别：硕士

由于深度学习在图像识别、语音识别、自然语言处理等领域表现突出,已经成为学术界和工业界的研究热点。神经网络中通常包含大量可训练的参数,因此训练出一个性能良好的神经网络需要耗费大量时间。另一方面,为了能从海量的数据中学习到... 详细信息

由于深度学习在图像识别、语音识别、自然语言处理等领域表现突出,已经成为学术界和工业界的研究热点。神经网络中通常包含大量可训练的参数,因此训练出一个性能良好的神经网络需要耗费大量时间。另一方面,为了能从海量的数据中学习到更有价值的特征,深度神经网络的层次正不断加深,进一步增加了网络训练的耗时。如何提高网络的训练速度、缩短网络的训练周期已经成为深度学习领域的一个重要研究方向。近年来,图形处理器gpu的通用计算技术得到了迅速的发展,现在主流gpu的浮点运算能力已经是主流CPU的十多倍。gpu由于其强大的并行计算能力、高吞吐量等优势已经成为高性能计算领域的主流加速器。基于以上分析,对现有的并行加速算法进行了充分研究后,本文借鉴了将卷积运算展开成矩阵运算的思想,基于CUDA计算框架实现了对深度学习算法的并行加速,进一步提高了 gpu的并行效率。本文的主要工作如下:1)分析了神经网络的基本思想、网络结构,并对传统人工神经网络中的反向传播算法进行了详细研究。重点研究了卷积神经网络的稀疏连接和权值共享的特性,对卷积神经网络中的卷积计算、池化处理以及梯度计算过程进行了详细完整地推导,为深度神经网络的并行化实现提供理论指导。研究了 gpu的硬件性能以及CUDA的线程结构、存储结构和编程模型。2)采用卷积运算展开成矩阵运算的思想以及ReLu激活函数等方法,基于CUDA平台,在gpu上设计并实现了卷积神经网络中的卷积层、采样层、全连接层和激活层的前向计算、反向传播以及参数更新过程,然后给出了神经网络的搭建步骤以及参数初始化方法,最后描述了神经网络的训练过程。3)利用已经实现的隐藏层分别构建出LeNet-5、CIFAR-10和AlexNet这三种规模不同的神经网络。然后分别基于MNIST数据集、CIFAR-10数据集和ImageNet数据集在CPU和gpu上对三种神经网络进行训练,并分析网络中各网络层的前向计算和反向传播时间。三个神经网络在准确率没有下降的情况下,在gpu上的加速比分别为8.1,33.5和48.9,和当前的深度学习计算框架相比,本文提出的并行加速方法也存在一定的优势。

关键词：深度学习 gpu通用计算 CUDA 卷积展开 ReLu

来源：评论

学校读者我要写书评

暂无评论

没有更多数据了...

全选清除本页清除全部题录导出标记到“检索档案”

共10页 << < 1 2 3 4 5 6 7 8 9 10 > >>

检索报告对象比较合并检索0

隐藏清空

合并搜索

回到顶部

执行限定条件

内容：

评分：

请选择保存的检索档案：

请选择收藏分类：

订阅名称：

通借通还

温馨提示：

图书名称：

借书校区：

取书校区：

手机号码：

邮箱地址：

一卡通帐号：

电话和邮箱必须正确填写，我们会与您联系确认。

联系人：

所在院系：

联系邮箱：

联系电话：

内蒙古自治区呼和浩特市赛罕区大学西街235号邮编: 010021

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：