首先,本文介绍了SIMD扩展技术,并分析了使用SIMD扩展的三种方式,认为通过调用特定目标平台优化的第三方库是应用领域软件开发者快速开发高效并行程序的较好的方式:其次,介绍了国产神威处理器SW-1600平台,并利用SIMD扩展和循环展开等技术开发了SW-VML(SW Vector Math Library),开发过程中提出了访存对界、简化向量条件分支的优化方法,解决了非对界访存、向量与标量数组转换影响性能的问题,并根据SW编译器对0penMP的支持,开发了多线程0penMp版.最后,在SW-1600平台上采用不同向量规模对SW-VML进行了测试,测试结果显示SIMD向量化相对于串行程序加速比为2.08,4线程相对单线程平均加速比为2,***-VML是国产神威系列处理器上开发的常用向量函数软件包,SW-VML可以用作在神威蓝光高性能计算平台开发高性能程序的基础软件工具包.
功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2% -88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1% -13.8%的节能效果提升.
暂无评论