多聚焦图像3维形貌重建旨在利用不同聚焦水平的图像序列恢复场景的3维结构信息.现有的3维形貌重建方法大多从单一尺度对图像序列的聚焦水平进行评价,通过引入正则化或后处理方法引导重建过程,由于深度信息选择空间的局限性往往导致重建结果无法有效收敛.针对上述问题,提出一种多尺度代价聚合的多聚焦图像3维形貌重建框架MSCAS(multi-scale cost aggregation framework for shape from focus),该框架首先引入非降采样的多尺度变换增加输入图像序列的深度信息选择空间,然后联合尺度内序列关联与尺度间信息约束进行代价聚合,通过这种扩张-聚合模式实现了场景深度表征信息的倍增与跨尺度和跨序列表征信息的有效融合.作为一种通用框架,MSCAS框架可实现已有模型设计类方法和深度学习类方法的嵌入进而实现性能提升. 实验结果表明:MSCAS框架在嵌入模型设计类SFF方法后4组数据集中的均方根误差RMSE(root mean squared error)平均下降14.91%,结构相似性SSIM(structural similarity index measure)平均提升56.69%,嵌入深度学习类SFF方法后4组数据集中的RMSE平均下降1.55%,SSIM平均提升1.61%.验证了MSCAS框架的有效性和通用性.
在光谱三维CT数据中,传统卷积的全局特征捕捉能力不足,而全尺度的自注意力机制则需要大量的计算资源.为了解决这一问题,本文引入一种新视觉注意力范式(wave self-attention,WSA).相比于ViT技术,该机制使用更少的资源获得同等的自注意力信息.此外,为更充分地提取器官间的相对依赖关系并提高模型的鲁棒性和执行速度,本文为WSA机制设计了一种即插即用的模块——波随机编码器(wave random encoder,WRE).该编码器能够生成一对互逆的非对称全局(局部)位置信息矩阵.其中,全局位置矩阵用来对波特征进行全局性的随机取样,局部位置矩阵则用于补充因随机取样而丢失的局部相对依赖.本文在标准数据集Synapse和COVID-19的肾脏和肺实质的分割任务上进行实验.结果表明,本文方法在精度、参数量和推理速率方面均超越了nnFormer、Swin-UNETR等现有模型,达到了SOTA水平.
暂无评论