芯粒集成逐渐成为不同场景下敏捷定制深度学习芯片的高可扩展性的解决方案,芯片设计者可以通过集成设计、验证完成的第三方芯粒来降低芯片开发周期和成本,提高芯片设计的灵活性和芯片良率.在传统的芯片设计和商业模式中,编译器等专用软件工具链是芯片解决方案的组成部分,并在芯片性能和开发中发挥重要作用.然而,当使用第三方芯粒进行芯片敏捷定制时,第三方芯粒所提供的专用工具链无法预知整个芯片的资源,因此无法解决敏捷定制的深度学习芯片的任务部署问题,而为敏捷定制的芯片设计全新的工具链需要大量的时间成本,失去了芯片敏捷定制的优势.因此,提出一种面向深度学习集成芯片的可扩展框架(scalable framework for integrated deep learning chips)--Puzzle,它包含从处理任务输入到运行时管理芯片资源的完整流程,并自适应地生成高效的任务调度和资源分配方案,降低冗余访存和芯粒间通信开销.实验结果表明,该可扩展框架为深度学习集成芯片生成的任务部署方案可自适应于不同的工作负载和硬件资源配置,与现有方法相比平均降低27.5%的工作负载运行延迟.
随着内存密集型应用的快速发展,应用对单机内存容量的需求日益增大.然而,受到颗粒密度的限制,内存容量的扩展度较低.页交换机制是进行内存扩展的经典技术,该机制通过将较少使用的内存页面暂存在存储设备,以达到扩展内存的目的.过去页交换机制由于慢速磁盘的读写速度限制,无法被广泛应用.近年来,得益于超低延迟固态硬盘(solid state drive,SSD)的快速发展,页交换机制可以利用其低延迟的读写特性,提升页交换效率.然而,在低I/O延迟的情况下,传统页交换机制的I/O栈存在巨大的软件开销.首先对使用超低延迟SSD的Linux页交换机制进行测试与分析,发现现有页交换机制的主要瓶颈在于发送请求时存在队头阻塞问题、I/O合并和调度开销,以及内核返回路径上的中断处理和直接内存回收开销.基于分析结果,提出基于超低延迟SSD的页交换机制***在Linux I/O栈的基础上增加对轮询请求的处理,并降低I/O合并与调度开销,实现轻量级的I/O栈.基于Ultraswap的I/O栈,对内核页交换机制的换入与换出路径进一步优化.通过优化对缺页、直接内存回收的处理,降低页交换机制关键路径上的时间开销.实验结果表明Ultraswap在应用测试场景下相比Linux页交换机制能够提升19%的平均性能;在可使用内存比例为20%的情况下,Ultraswap可达到33%的性能提升.
根据超声心动图准确分析左心室轮廓和射血分数对于心血管疾病诊断意义重大.但现有方法存在左心室分割和射血分数预测之间缺乏关联性、左心室分割关键点易于出现离群点和突变点、方法存储和计算开销大、解释性不佳等问题,为此提出一种基于先验知识引导的轻量级图卷积方法EchoGPK(Echo Guided by Priori Knowledge),以心脏的结构和运动特性、相邻心肌的相似性等先验知识为引导,设计了计算高效的螺旋聚合函数和深度压缩的多头偏心聚合解码器,实现了图卷积结构的轻量化.方法基于临床医生的普遍经验提出了适度利用左心室轮廓的多任务射血分数预测网络,建立了左心室分割和射血分数预测之间的关联性,增强了推理的可解释性;基于图卷积神经网络的传递特性约束邻居点的行为,减少了边界离群点和突变点的产生.EchoGPK在大型公开数据集EchoNet-Dynamic上的实验结果表明,左心室分割的Dice分数达92.13%,射血分数预测的MAE达3.92%;方法表现出准确率高、参数量和算力需求低等特点,证明了先验知识在超声医学图像分析中的有效性.
暂无评论