检索结果-内蒙古大学图书馆

2010年全国高性能计算学术年会(HPC china2010)

作者：袁良张云泉王可张先轶中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院计算机科学国家重点实验室北京 100190 中国科学院研究生院北京 100049 中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院计算机科学国家重点实验室北京 100190 中国科学院软件研究所并行软件与计算科学实验室北京 100190

近年来在生物计算，科学计算等领域成功地应用了GPU 加速计算并获得了较高加速比.然而在GPU 上编程和调优过程非常繁琐，为此，研究人员提出了许多提高编程效率的编程模型和编译器，以及指导程序优化的计算模型，在一定程度上简化了G... 详细信息

近年来在生物计算，科学计算等领域成功地应用了GPU 加速计算并获得了较高加速比.然而在GPU 上编程和调优过程非常繁琐，为此，研究人员提出了许多提高编程效率的编程模型和编译器，以及指导程序优化的计算模型，在一定程度上简化了GPU 上的算法设计和优化，但是已有工作都存在一些不足.针对GPU 低延迟高带宽的特性，提出了基于延迟隐藏因子的GPU 计算模型，模型提取算法隐藏延迟的能力，以指导算法优化.利用三种矩阵乘算法进行实测与模型预测，实验结果表明，在简化模型的情况下，平均误差率为0.19.

关键词： GPU 通用计算计算模型性能模型延迟隐藏因子 GPU 性能优化

来源：评论

学校读者我要写书评

暂无评论

SIMD技术与向量数学库研究

SIMD技术与向量数学库研究

引用

2010年全国高性能计算学术年会(HPC china2010)

作者：解庆春张云泉王可李炎中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院计算机科学国家重点实验室北京 100190 中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院计算机科学国家重点实验室北京 100190 中国科学院研究生院北京 100049

首先，结合Intel、AMD 和IBM 处理器，介绍了SIMD 向量化技术，以及各自特点.其次，在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明，相对传统的标量计算，向量化技术带来的加速比较高，特别是Cell SDK ... 详细信息

首先，结合Intel、AMD 和IBM 处理器，介绍了SIMD 向量化技术，以及各自特点.其次，在三种平台上对各自开发的函数库中的部分向量数学函数进行了测试.实验结果表明，相对传统的标量计算，向量化技术带来的加速比较高，特别是Cell SDK 函数，因其独特的体系结构，多个向量处理单元带来的平均加速比为10.最后，通过对测试结果对比，发现不同数学库中的向量函数之间的性能方面也存在着差异，并对差异原因进行了分析.得出影响性能差异主要是处理器架构，向量计算计算单元个数和访存等因素造成的.

关键词：向量化 SSE MMX 3DNow SIMD

来源：评论

学校读者我要写书评

暂无评论

BLAS库在多核处理器上的性能测试与分析

BLAS库在多核处理器上的性能测试与分析

引用

2010年全国高性能计算学术年会(HPC china2010)

作者：陈少虎张云泉张先轶程豪中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院软件研究所计算机科学股价重点实验室北京 100190 中国科学院研究生院北京 100190 中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院软件研究所计算机科学股价重点实验室北京 100190 中国科学院软件研究所并行软件与计算科学实验室北京 100190

BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理... 详细信息

BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理器为例,全面测试了GotoBLAS、Atlas、***四种主流的BLAS 库的所有1,2,3 级函数,并覆盖了不同计算规模和多核并行方面的测试.通过测试结果,分析源代码、BLAS 库资料和论文的方式,分析BLAS 有效的优化和并行方法,以及它们所适合的平台.为BLAS的优化、使用,甚至高性能处理器的发展上提供有益的建议.实验发现,比起一个逻辑处理强大但是复杂的处理器,一个Cache 更大、性能更好,内存带宽更宽、延迟更小,主频更高的处理器往往能在高性能计算中取得更好的性能.同时,X86 平台上的状况对其他体系结构也有巨大的借鉴意义.

关键词： BLAS库多核处理器性能测试并行分析

来源：评论

学校读者我要写书评

暂无评论

行星流体动力学大规模并行模拟及分析

行星流体动力学大规模并行模拟及分析

引用

2010年全国高性能计算学术年会(HPC china2010)

作者：王婷张云泉孙相征杨超中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院软件研究所计算机科学国家重点实验室北京 100190 中国科学院软件研究所并行软件与计算科学实验室北京 100190 中国科学院软件研究所计算机科学国家重点实验室北京 100190 中国科学院研究生院北京 100190

主要介绍了行星流体动力学大规模并行模拟中病态压力方程的预条件子和迭代算法的选取,并根据强弱可扩展性的概念,对弱可扩展性的实验结果进行了分析。具体分析了在维持每核平均的浮点操作次数基本不变的情况下,倍增处理器规模时,程序... 详细信息

主要介绍了行星流体动力学大规模并行模拟中病态压力方程的预条件子和迭代算法的选取,并根据强弱可扩展性的概念,对弱可扩展性的实验结果进行了分析。具体分析了在维持每核平均的浮点操作次数基本不变的情况下,倍增处理器规模时,程序运行时间,MPI 消息传递的数量和大小对弱可扩展性的影响。

关键词：预条件迭代弱可扩展性曙光500A 深腾700

来源：评论

学校读者我要写书评

暂无评论

2009年中国高性能计算机发展现状分析与展望

引用

数据与计算发展前沿 2010年第1期1卷 76-84页

作者：张云泉孙家昶袁国兴张林波中国科学院软件研究所并行软件与计算科学实验室北京应用物理与计算数学所中国科学院数学与系统科学研究院

本文根据2009年11月发布的中国高性能计算机TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。在此基础上,根据八届排行榜积累的性能数据和能够得到的其他公开历史数据,对未来几年... 详细信息

本文根据2009年11月发布的中国高性能计算机TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。在此基础上,根据八届排行榜积累的性能数据和能够得到的其他公开历史数据,对未来几年中国内地高性能计算机的发展趋势进行了分析预测。从预测可以看出,累计Linpack性能将提前到2011年达到10Petaflops;峰值10Petaflops的机器将在2012年到2013年间出现;累计Linpack性能将在2014年左右达到100Petaflops;峰值100Petaflops的机器将在2015年左右出现。

关键词：高性能计算机 TOP100 排行榜性能分析

来源：评论

学校读者我要写书评

暂无评论

2009年中国高性能计算机发展现状分析与展望

引用

科研信息化技术与应用 2010年第1期1卷 76-84页

作者：张云泉孙家昶袁国兴张林波中国科学院软件研究所并行软件与计算科学实验室北京100190 北京应用物理与计算数学所北京100088 中国科学院数学与系统科学研究院北京100190

关键词：高性能计算机 TOP100 排行榜性能分析

来源：评论

学校读者我要写书评

暂无评论

行星流体动力学数值模拟程序的千核性能优化

引用

数据与计算发展前沿 2010年第3期1卷 24-29页

作者：张云泉王婷孙相征杨超李力刚中国科学院软件研究所并行软件与计算科学实验室中国科学院软件研究所计算机科学国家重点实验室中国科学院研究生院中国科学院上海天文台

基于百万亿次超级计算机深腾7000,对行星流体动力学数值模拟程序的性能优化进行了研究。首先,进行了从原基于Aztec库到PETSc库改进后的程序的8-2048核强可扩展性测试。测试结果表明,在每节点8核或4核时,PETSc程序运行时间平均是Aztec程... 详细信息

基于百万亿次超级计算机深腾7000,对行星流体动力学数值模拟程序的性能优化进行了研究。首先,进行了从原基于Aztec库到PETSc库改进后的程序的8-2048核强可扩展性测试。测试结果表明,在每节点8核或4核时,PETSc程序运行时间平均是Aztec程序29.31%或24.97%。其次,针对该程序压力方程的系数矩阵特点,设计实现了CVRSD存储格式的SpMV优化,下一步将移植到基于PETSc库的行星流体动力学程序中。

关键词：天体数值模拟深腾7000 性能测试可扩展性优化

来源：评论

学校读者我要写书评

暂无评论

行星流体动力学数值模拟程序的千核性能优化

引用

科研信息化技术与应用 2010年第3期1卷 24-29页

作者：张云泉王婷孙相征杨超李力刚中国科学院软件研究所并行软件与计算科学实验室北京100190 中国科学院软件研究所计算机科学国家重点实验室北京100190 中国科学院研究生院北京100190 中国科学院上海天文台上海200030

关键词：天体数值模拟深腾7000 性能测试可扩展性优化

来源：评论

学校读者我要写书评

暂无评论

SpMV的自动性能优化实现技术及其应用研究

引用

计算机研究与发展 2009年第7期46卷 1117-1126页

作者：袁娥张云泉刘芳芳孙相征中国科学院软件研究所并行计算实验室北京100190 中国科学院研究生院北京100049 中国科学院计算机科学国家重点实验室北京100190

在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大... 详细信息

在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium4和AMD Athlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48.

关键词：稀疏矩阵向量乘启发式算法自适应性能优化存储访问模式寄存器分块

来源：评论

学校读者我要写书评

暂无评论

平行六边形区域非均匀节点快速傅立叶变换

引用

数值计算与计算机应用 2009年第1期30卷 58-69页

作者：李明亮李会元孙家昶中国科学院软件研究所并行计算实验室中国科学院研究生院北京100190 中国科学院软件研究所并行计算实验室北京100190

本文研究平行六边形区域上的非均匀节点离散傅立叶变换的快速算法及其实现.首先在晶格(Lattice)的框架下建立了平行六边形区域上的非均匀节点离散傅立叶变换(NDFTH).在此基础上设计了平行六边形区域上的非均匀节点快速傅立叶变换(NFFTH... 详细信息

本文研究平行六边形区域上的非均匀节点离散傅立叶变换的快速算法及其实现.首先在晶格(Lattice)的框架下建立了平行六边形区域上的非均匀节点离散傅立叶变换(NDFTH).在此基础上设计了平行六边形区域上的非均匀节点快速傅立叶变换(NFFTH)算法.其核心思想是以局部性态良好的窗口函数为基底,以平行六边形区域上均匀节点快速傅立叶变换(FFTH)为时空域和频域转换工具,通过在时空域和频域上截取其展开级数的少量几项来快速近似计算,最终降低其计算复杂度.数值计算结果表明,本文算法是合理、稳定、高效的.

关键词：非均匀节点快速傅立叶变换平行六边形快速算法及实现数值实验

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：