检索结果-内蒙古大学图书馆

中国科学：信息科学 2022年第6期52卷 1040-1052页

作者：庄毅敏文渊博李威郭崎中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190 中国科学院大学北京100049 中国科学技术大学计算机科学与技术学院合肥230026 上海寒武纪信息科技有限公司上海201308

随着各类机器学习算法的广泛应用,高能效地定制机器学习系统受到越来越多的关注.定制机器学习系统高效部署的关键在于其编程与编译环境.中间表示是编程与编译环境的核心,用于连接上层编程语言和底层硬件指令.当前的中间表示或是面向上... 详细信息

随着各类机器学习算法的广泛应用,高能效地定制机器学习系统受到越来越多的关注.定制机器学习系统高效部署的关键在于其编程与编译环境.中间表示是编程与编译环境的核心,用于连接上层编程语言和底层硬件指令.当前的中间表示或是面向上层算法或是面向以标量处理为核心的传统处理器,难以高效应对以张量处理为核心的机器学习系统.本文提出了面向机器学习系统的张量中间表示,以提升机器学习系统的编程和运行效率.具体而言,我们定义了一系列张量类型,张量操作及张量存储空间,并在此基础上进行张量处理优化.我们将所提出的张量中间表示对TVM的底层标量中间表示进行了扩展并在典型机器学习系统上进行了实验.我们探索了原有中间表示没有发掘的优化并取得了1.62~2.85倍的性能提升,同时在典型算子的开发效率上平均提升了5.46倍.

关键词：机器学习系统编程与编译张量处理中间表示编程效率

来源：评论

学校读者我要写书评

暂无评论

低面积低功耗的机器学习运算单元设计

引用

高技术通讯 2019年第1期29卷 12-18页

作者：周聖元杜子东刘道福支天陈云霁中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190 中国科学院大学北京100049 上海寒武纪信息科技有限公司上海201203

随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效... 详细信息

随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效程度。针对这种现象,本文研究了4种流行的机器学习算法——k-近邻算法(k-NN),k-均值算法(k-Means),支持向量机(SVM)和逻辑回归(LR),并对这些算法中最为耗时的运算部分进行了深入分析,此外,还针对数据位宽对运算精度、硬件开销的影响进行了分析。根据以上分析,本文设计了一款可以支持多种机器学习算法的运算单元,该运算单元混合使用16位浮点数和32位浮点数的运算器,实现了低面积、低功耗的需求。实验结果表明,本文提出的运算单元可以在几乎不损失正确率的情况下,减少69. 80%的总面积开销以及68. 98%的总功耗开销。

关键词：机器学习(ML) 运算单元加速器低面积低功耗

来源：评论

学校读者我要写书评

暂无评论

稀疏神经网络加速器设计

引用

高技术通讯 2019年第3期29卷 222-231页

作者：周聖元杜子东陈云霁中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190 中国科学院大学北京100049 上海寒武纪信息科技有限公司上海201306

针对日益增长的神经网络规模和不断变化的神经网络模型结构,提出了一款新型的稀疏神经网络加速器架构。该架构能够有效利用稀疏神经网络中的权值稀疏性和神经元稀疏性,进一步提升加速器处理神经网络模型时的运算速度。同时,该架构能够... 详细信息

针对日益增长的神经网络规模和不断变化的神经网络模型结构,提出了一款新型的稀疏神经网络加速器架构。该架构能够有效利用稀疏神经网络中的权值稀疏性和神经元稀疏性,进一步提升加速器处理神经网络模型时的运算速度。同时,该架构能够支持逐元素乘法/加法等运算,从而进一步提高加速器的灵活性,高效支持并加速Resnet等新型的神经网络结构。实验结果显示,基于5个具有代表性神经网络模型,该架构相比于现有的先进的稀疏神经网络加速器有平均为2.57倍的加速比,同时针对Resnet-18和Resnet-50的BN层分别平均有4.40倍和4.57倍的加速比。

关键词：神经网络稀疏神经网络加速器

来源：评论

学校读者我要写书评

暂无评论

一种基于硬件的快速确定性重放方法

引用

高技术通讯 2017年第6期27卷 487-494页

作者：章隆兵李磊肖俊华贺晓王剑计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190 中国科学院大学北京100049 中国科学院计算技术研究所北京100190 龙芯中科技术有限公司北京100190 华为技术有限公司深圳518129

针对多核处理器上并行程序执行不确定性所造成的并行调试难问题,提出了一种基于硬件的快速确定性重放方法——时间切割者。该方法采用面向并行的记录机制来区分出原执行中并行执行的访存指令块和非并行执行的指令块,并在重放执行中避免... 详细信息

针对多核处理器上并行程序执行不确定性所造成的并行调试难问题,提出了一种基于硬件的快速确定性重放方法——时间切割者。该方法采用面向并行的记录机制来区分出原执行中并行执行的访存指令块和非并行执行的指令块,并在重放执行中避免串行执行那些在原执行中并行执行的访存指令块,从而使得重放执行的性能开销小。在多核模拟器Sim-Godson上的仿真实验结果表明:该方法的重放速度快,其性能开销仅为2%左右。此外,该方法还具有硬件支持简单特点,未来有望应用于国产多核处理器研制中。

关键词：多核处理器并行调试确定性重放多核模拟器全局时钟

来源：评论

学校读者我要写书评

暂无评论

树形网络中的副本更新策略及算法

引用

计算机工程与科学 2015年第3期37卷 440-445页

作者：王旭武继刚侯睿天津工业大学计算机科学与软件学院天津300387 中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190

树形网络中的副本放置和更新是网络通讯中值得研究的重要问题之一。面对网络中数据访问需求的动态变化,好的副本放置和更新策略可以在保证服务质量的前提下有效减少网络运行及副本更新成本。针对此问题提出了两种贪心的动态副本更新策略... 详细信息

树形网络中的副本放置和更新是网络通讯中值得研究的重要问题之一。面对网络中数据访问需求的动态变化,好的副本放置和更新策略可以在保证服务质量的前提下有效减少网络运行及副本更新成本。针对此问题提出了两种贪心的动态副本更新策略,最大重用策略和请求覆盖策略。通过算法复杂度分析和仿真实验可以看出,所提出的两种算法的最坏时间复杂度为O(nlog n),远低于现有的使用动态规划求最优解的最坏时间复杂度O(n5),而网络运行及副本更新成本与最优解相差不超过11%。在极大地缩短了运算时间的同时,保持了尽可能低的网络运行及副本更新成本。

关键词：树形网络副本放置更新策略

来源：评论

学校读者我要写书评

暂无评论

稳定的最短路径树及其构造算法

引用

计算机工程与科学 2016年第3期38卷 418-424页

作者：杨晓花武继刚史雯隽赵国栋天津工业大学计算机科学与软件学院天津300387 中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190

构建最短路径树是动态网络研究的重要问题之一。在动态网络中,当边状态发生变化时会引发最短路径树动态的重新构建,反复地计算不仅消耗大量时间,也会导致最短路径树的频繁变化。提出一种稳定的最短路径树构造算法,使得构造的路径树在动... 详细信息

构建最短路径树是动态网络研究的重要问题之一。在动态网络中,当边状态发生变化时会引发最短路径树动态的重新构建,反复地计算不仅消耗大量时间,也会导致最短路径树的频繁变化。提出一种稳定的最短路径树构造算法,使得构造的路径树在动态网络上更稳定,即更新最短路径树所需的操作数更少。该算法通过记录频繁变化的不稳定边并尽可能避免将其加入最短路径树中,从而能够高效地减少边变化带来的操作。实验结果表明,与传统的动态最短路径树算法相比,该算法可以得到更稳定的最短路径树,并且更新时间减少了57.24%,结点更新次数降低了43.6%。

关键词：最短路径树动态网络重新构建稳定的

来源：评论

学校读者我要写书评

暂无评论

EOFDM:一种面向众核架构的最低能耗搜索方法

引用

计算机研究与发展 2015年第6期52卷 1303-1315页

作者：朱亚涛张帅王达叶笑春张洋胡九川张志敏范东睿李宏亮计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190 中国科学院大学计算机与控制学院北京100049 河北农业大学信息科学与技术学院河北保定071001 国家计算机网络应急技术处理协调中心北京100029 北京交通大学计算机与信息技术学院北京100044 数学工程与先进计算国家重点实验室江苏无锡214125

面向能耗优化的面积(核数)-功率(频率)分配问题是当前众核处理器研究热点之一.通过性能-功耗模型了解其在核数-频率空间的分布规律,然后在核数和频率级别这2个维度上通过实测执行逐步搜索,可以获取"核数-频率"配置的最优解,... 详细信息

面向能耗优化的面积(核数)-功率(频率)分配问题是当前众核处理器研究热点之一.通过性能-功耗模型了解其在核数-频率空间的分布规律,然后在核数和频率级别这2个维度上通过实测执行逐步搜索,可以获取"核数-频率"配置的最优解,从而达到能耗优化的目的;然而本领域现有方法在核数-频率空间内实测搜索最低能耗时收敛速度慢、搜索开销大、可扩展性差.针对此问题,提出了一种基于求解最优化问题的经典数学方法——可行方向法的最低能耗搜索方法(energy-efficient optimization based on feasible direction method,EOFDM),每次执行都能从核数和频率2个维度上同时减小搜索空间,在迭代执行中快速收敛至最低能耗点.该方法与现有研究中最优的启发式爬山法(hill-climbing heuristic,HCH)进行了对比实验,平均执行次数、执行时间和能耗分别降低39.5%,46.8%,48.3%,提高了收敛速度,降低了搜索开销;当核数增加一倍时,平均执行次数、执行时间和能耗分别降低48.8%,51.6%,50.9%;当频率级数增加一倍时,平均执行次数、执行时间和能耗分别降低45.5%,49.8%,54.4%,在收敛速度、搜索开销和可扩展性方面均有提高.

关键词：能耗优化众核最优解可行方向法启发式爬山法

来源：评论

学校读者我要写书评

暂无评论

分离真伪时钟的处理器FPGA原型性能校准方法

引用

高技术通讯 2022年第5期32卷 462-470页

作者：郑雅文吴瑞阳陈天奇汪文祥章隆兵王剑计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100049 龙芯中科技术有限公司北京100190

针对现场可编程门阵列(FPGA)原型系统中内存刷新频率过高导致内存延迟变大的问题,提出了一种校准处理器FPGA原型系统性能的方法,搭建了一个精确的FPGA原型性能验证平台,可用于硅前快速准确地评估处理器系统性能。问题的根本原因是FPGA... 详细信息

针对现场可编程门阵列(FPGA)原型系统中内存刷新频率过高导致内存延迟变大的问题,提出了一种校准处理器FPGA原型系统性能的方法,搭建了一个精确的FPGA原型性能验证平台,可用于硅前快速准确地评估处理器系统性能。问题的根本原因是FPGA原型系统同时存在真实墙上时钟和由运行频率降低导致的伪墙上时钟,且在内存系统中刷新和访问请求分别按照两个时钟进行,然而真实机器上这两种请求都是按照真墙上时钟进行,因此FPGA内存系统有性能误差。本文通过将两个墙上时钟分离来实现校准,该校准方法准确度高、通用性强,校准后的FPGA原型系统运行SPEC CPU 2006基准测试程序性能分值平均误差由7.49%降至0.36%,最高误差降至2%以下,可快速有效地指导硅前性能优化。

关键词：硅前验证现场可编程门阵列(FPGA)原型内存系统性能评估校准方法

来源：评论

学校读者我要写书评

暂无评论

可能量感知的虚拟Web集群系统设计

引用

小型微型计算机系统 2014年第5期35卷 956-960页

作者：方名邓玉辉熊劲暨南大学信息学院计算机科学系广州510632 中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190

传统的静态资源配置方式在动态、突发性负载环境下导致了集群系统、数据中心等大规模系统中极低的资源利用率和极高的能量消耗.本文提出并设计了一个应对突发性负载的可能量感知的自适应Web集群系统.相对于传统的资源监测方式,本文提出... 详细信息

传统的静态资源配置方式在动态、突发性负载环境下导致了集群系统、数据中心等大规模系统中极低的资源利用率和极高的能量消耗.本文提出并设计了一个应对突发性负载的可能量感知的自适应Web集群系统.相对于传统的资源监测方式,本文提出了轻量级的基于Web访问连接数的敏感因子以实现对系统负载的实时捕捉,并以虚拟机为粒度实现系统的自适应配置,同时将系统中闲置的节点转入低能耗状态以降低整个系统的能耗.另外,本文还提出并实现了利用滞回控制来处理负载在短时间内出现的乒乓波动效应.实验结果表明该系统灵敏度高,稳定,而且在突发性负载情况下的节能效果明显.

关键词：可能量感知突发性负载 Web集群虚拟机敏感因子

来源：评论

学校读者我要写书评

暂无评论

面向固态硬盘的Spark数据持久化方法设计

引用

计算机研究与发展 2017年第6期54卷 1381-1390页

作者：陆克中朱金彬李正民隋秀峰深圳大学计算机与软件学院广东深圳518060 广东工业大学计算机学院广州511400 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190 国家计算机网络应急技术处理协调中心北京100029 中国工程院战略咨询中心北京100088

基于固态硬盘(solid-state drive,SSD)和硬盘(hard disk drive,HDD)混合存储的数据中心已经成为大数据计算领域的高性能载体,数据中心负载应该可将不同特性的数据按需持久化到SSD或HDD,以提升系统整体性能.Spark是目前产业界广泛使用的... 详细信息

基于固态硬盘(solid-state drive,SSD)和硬盘(hard disk drive,HDD)混合存储的数据中心已经成为大数据计算领域的高性能载体,数据中心负载应该可将不同特性的数据按需持久化到SSD或HDD,以提升系统整体性能.Spark是目前产业界广泛使用的高效大数据计算框架,尤其适用于多次迭代计算的应用领域,其原因在于Spark可以将中间数据持久化在内存或硬盘中,且持久化数据到硬盘打破了内存容量不足对数据集规模的限制.然而,当前的Spark实现并未专门提供显式的面向SSD的持久化接口,尽管可根据配置信息将数据按比例分布到不同的存储介质中,但是用户无法根据数据特征按需指定RDD的持久化存储介质,针对性和灵活性不足.这不仅成为进一步提升Spark性能的瓶颈,而且严重影响了混合存储系统性能的发挥.有鉴于此,首次提出面向SSD的数据持久化策略.探索了Spark数据持久化原理,基于混合存储系统优化了Spark的持久化架构,最终通过提供特定的持久化API实现用户可显式、灵活指定RDD的持久化介质.基于SparkBench的实验结果表明,经本方案优化后的Spark与原生版本相比,其性能平均提升14.02%.

关键词：大数据混合存储固态硬盘 Spark 持久化

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：