目的 肺部肿瘤早期症状不典型易导致错过最佳治疗时间,有效准确的肺部肿瘤检测技术在计算机辅助诊断中变得日益重要,但在肺部肿瘤PET/CT(positron emission computed tomography/computed tomography)多模态影像中,肿瘤与周围组织粘连导致边缘模糊和对比度低,且存在病灶区域小、大小分布不均衡等问题。针对上述问题,提出一种跨模态注意力YOLOv5(cross-modal attention you only look once v5, CA-YOLOv5)的肺部肿瘤检测模型。方法首先,在主干网络中设计双分支并行的自学习注意力,利用实例归一化学习比例系数,同时利用特征值与平均值之间差值计算每个特征所包含信息量,增强肿瘤特征和提高对比度;其次,为充分学习多模态影像的多模态优势信息,设计跨模态注意力对多模态特征进行交互式学习,其中Transformer用于建模深浅层特征的远距离相互依赖关系,学习功能和解剖信息以提高肺部肿瘤识别能力;最后,针对病灶区域小、大小分布不均衡的问题,设计动态特征增强模块,利用不同感受野的多分支分组扩张卷积和分组可变形卷积,使网络充分高效挖掘肺部肿瘤特征的多尺度语义信息。结果 在肺部肿瘤PET/CT数据集上与其他10种方法进行性能对比,CA-YOLOv5获得了97.37%精度、94.01%召回率、96.36%mAP(mean average precision)和95.67%F1的最佳性能,并且在同设备上训练耗时最短。在LUNA16(lung nodule analysis 16)数据集中本文同样获得了97.52%精度和97.45%mAP的最佳性能。结论 本文基于多模态互补特征提出跨模态注意力YOLOv5检测模型,利用注意力机制和多尺度语义信息,实现了肺部肿瘤检测模型在多模态影像上的有效识别,使模型识别更加准确和更具鲁棒性。
多模态方面级情感分析(Multimodal Aspect-Based Sentiment Analysis,MABSA)作为一种细粒度情感分析技术,旨在通过整合多种模态的特征数据来提高该领域的精度和效果。针对现有的多模态方面级情感分析的研究大多集中在文本和图像模态间的跨模态对齐上,忽略了图像的粗细粒度特征信息对MABSA子任务的潜在贡献。为此,本文提出一种联合双粒度图像信息的多模态方面级情感分析方法(Combining Two Granularity Image Information for Multi-Modal Aspect-Based Sentiment Analysis,CTGI)。具体地,在多模态方面词提取任务中,为增强图像与文本模态的交互,利用ClipCap获取图像的粗粒度特征描述文本,作为图像提示信息,辅助模型预测文本中的方面词及其属性。在多模态方面词情感分类中,为了捕获丰富的图像细粒度情感特征,通过跨模态注意力机制,将带有原始情感语义的图像底层特征与掩码后的文本经过多层深度交互,强化图像特征到文本特征的融合。通过在两个公共的Twitter数据集和Restaurant+数据集上的实验结果表明,CTGI的表现优于当前的基线模型,验证了图像粗细粒度对MABSA子任务不同贡献度的合理性。
暂无评论