版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:中国科学院半导体研究所高速电路与神经网络实验室北京100083 威富集团形象认知计算联合实验室北京100083 中国科学院大学集成电路学院北京100049
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2022年第45卷第10期
页 面:2080-2092页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:目标检测 DETR Transformer 胶囊网络 脑神经科学 残差网络
摘 要:Facebook AI研究者2020年提出的Detection Transformer(DETR)目标检测方法采用简单的编码器-解码器结构,利用集合预测来解决物体检测问题,算法简单、通用、避免了很多手工设计和调参问题,吸引了学术界和产业界的广泛关注.然而,DETR方法对于输入特征的分辨率大小有限制,同时在检测推理过程中缺失相对位置信息,从而导致对小目标和被遮挡目标的检测性能较差.为解决这一问题,受脑认知启发,本文提出基于胶囊推理和残差增强的全推理目标检测网络(Capsule-Inferenced and Residual-Augmented Detection Transformers,CIRA_DETR).首先,建立层间残差信息增强模块,利用大小尺度的差异性对小尺度特征图进行信息增强,在小目标的检测效果上提升了1.8%.接着,为了更贴近人脑的思维方式,更好的建模神经网络中内部知识表示的分层关系,在Transformer的结果进行推理的过程中,引入胶囊推理模块挖掘实体信息,并利用双向注意力路由进行前向信息传递和后向信息的反馈,以此预测图像中目标的类别和位置信息,有效降低了遮挡下的目标检测问题的难度.最后,在目标信息的映射处理中,引入非线性超香肠映射函数,实现了灵活的超曲面构建,有效表达特征和目标类别以及位置之间的映射关系.在COCO数据集上的测试结果验证了CIRA_DETR模型的有效性,其在小目标、中目标和大目标的检测上,平均预测准确率分别达到了25.8%、48.7%和62.7%.本文小目标的检测性能可以和Faster-RCNN相媲美,同时可视化的结果以及性能指标也反映了,相比传统的DETR模型,本文CIRA_DETR模型在被遮挡目标检测上的优势.