深度神经网络(deep neural network,简称DNN)量化是一种高效的模型压缩方法,使用少量位宽表示模型计算过程中的参数和中间结果数据.数据位宽会直接影响内存占用、计算效率和能耗.以往的模型量化研究缺乏有效的定量分析,这导致量化损失难以预测.提出了一种超低损失的DNN量化方法(ultra-low loss quantization,简称μL2Q),以揭示量化位宽与量化损失之间的内在联系,指导量化位宽选择并降低量化损失.首先,将原始数据映射为标准正态分布的数据;然后,在等宽的量化区间中搜索最优量化参数;最后,将μL2Q方法融合进DNN的训练过程,并嵌入到主流的机器学习框架Caffe及Keras中,以支撑端到端模型压缩的设计和训练.实验结果表明,与最新的研究方法相比,在相同的位宽条件下,μL2Q方法能够保证更高的模型精度,在典型的神经网络模型上精度分别提高了1.94%,3.73%和8.24%.显著性物体检测实验结果表明,μL2Q方法能够胜任复杂的计算机视觉任务.
面向能耗优化的面积(核数)-功率(频率)分配问题是当前众核处理器研究热点之一.通过性能-功耗模型了解其在核数-频率空间的分布规律,然后在核数和频率级别这2个维度上通过实测执行逐步搜索,可以获取"核数-频率"配置的最优解,从而达到能耗优化的目的;然而本领域现有方法在核数-频率空间内实测搜索最低能耗时收敛速度慢、搜索开销大、可扩展性差.针对此问题,提出了一种基于求解最优化问题的经典数学方法——可行方向法的最低能耗搜索方法(energy-efficient optimization based on feasible direction method,EOFDM),每次执行都能从核数和频率2个维度上同时减小搜索空间,在迭代执行中快速收敛至最低能耗点.该方法与现有研究中最优的启发式爬山法(hill-climbing heuristic,HCH)进行了对比实验,平均执行次数、执行时间和能耗分别降低39.5%,46.8%,48.3%,提高了收敛速度,降低了搜索开销;当核数增加一倍时,平均执行次数、执行时间和能耗分别降低48.8%,51.6%,50.9%;当频率级数增加一倍时,平均执行次数、执行时间和能耗分别降低45.5%,49.8%,54.4%,在收敛速度、搜索开销和可扩展性方面均有提高.
针对现场可编程门阵列(FPGA)原型系统中内存刷新频率过高导致内存延迟变大的问题,提出了一种校准处理器FPGA原型系统性能的方法,搭建了一个精确的FPGA原型性能验证平台,可用于硅前快速准确地评估处理器系统性能。问题的根本原因是FPGA原型系统同时存在真实墙上时钟和由运行频率降低导致的伪墙上时钟,且在内存系统中刷新和访问请求分别按照两个时钟进行,然而真实机器上这两种请求都是按照真墙上时钟进行,因此FPGA内存系统有性能误差。本文通过将两个墙上时钟分离来实现校准,该校准方法准确度高、通用性强,校准后的FPGA原型系统运行SPEC CPU 2006基准测试程序性能分值平均误差由7.49%降至0.36%,最高误差降至2%以下,可快速有效地指导硅前性能优化。
公钥密码学对全球数字信息系统的安全起着至关重要的作用。然而,随着量子计算机研究的发展和Shor算法等的出现,公钥密码学的安全性受到了潜在的极大的威胁。因此,能够抵抗量子计算机攻击的密码算法开始受到密码学界的关注,美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)发起了后量子密码(Post-quantum cryptography,PQC)算法标准全球征集竞赛。在参选的算法中,基于格的算法在安全性、公钥私钥尺寸和运算速度中达到了较好的权衡,因此是最有潜力的后量子加密算法体制。而CRYSTALS-KYBER作为基于格的密钥封装算法(Key encapsulation mechanism,KEM),通过了该全球征集竞赛的三轮遴选。对于后量子密码算法,算法的硬件实现效率是一个重要评价指标。因此,本文使用高层次综合工具(High-level synthesis,HLS),针对CRYSTALS-KYBER的三个主模块(密钥生成,密钥封装和密钥解封装),在不同参数集下探索了硬件设计的实现和优化空间。作为一种快速便捷的电路设计方法,HLS可以用来对不同算法的硬件实现进行高效和便捷的探索。本文利用该工具,对CRYSTALS-KYBER的软件代码进行了分析,并尝试不同的组合策略来优化HLS硬件实现结果,并最终获得了最优化的电路结构。同时,本文编写了tcl-perl协同脚本,以自动化地搜索最优优化策略,获得最优电路结构。实验结果表明,适度优化循环和时序约束可以大大提高HLS综合得到的KYBER电路性能。与已有的软件实现相比,本文具有明显的性能优势。与HLS实现工作相比,本文对Kyber-512的优化使得封装算法的性能提高了75%,解封装算法的性能提高了55.1%。与基准数据相比,密钥生成算法的性能提高了44.2%。对于CRYSTALS-KYBER的另外两个参数集(Kyber-768和Kyber-1024),本文也获得了类似的优化效果。
暂无评论