随着智能产业、智慧城市的兴起,行人重识别应用领域也急剧增加,包括智能安防、大型公共场所(如迪士尼乐园、火车站、展览馆)智能寻人、智能商业广场、无人超市等等。目前视频行人重识别任务的主要问题和挑战集中于:低效的数据标注以及数据分布变化等原因导致视频行人重识别训练集不足;实际复杂生活场景中,行人遮挡或视角差异引起行人外观变化、室内室外光线差异和背景环境不同以及未能充分挖掘行人数据的局部细节和全局信息而导致数据集训练的效率不高。本文针对这些问题,提出了基于时空建模和注意力机制的视频行人重识别方法,主要研究工作如下:(1)提出了联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法。首先针对目标行人被错位遮挡或干扰的情况,提出了均等采样随机擦除的方法来充分地处理遮挡问题,增强模型的鲁棒性,更准确地匹配行人;其次为了提高视频行人重识别的精度,学习更有判别力的特征表示,使用3D卷积神经网络提取时空特征,并在网络输出行人特征表示前加上全局时间特征池化层,这样既能获取上下文的空间信息,又能细化帧与帧之间的时序信息。(2)提出了融合非局部注意力模块和联合损失度量函数的视频行人重识别方法。具体地说,在工作(1)的基础上,在3D卷积神经网络中添加非局部注意力模块,该模块能够关联视频帧与帧间长距离的信息,建立一定距离的像素间的联系,从局部和全局上进一步丰富行人特征表示,提取出视频级特征,将视频特征嵌入到多个特征级别表示中;然后利用三元组损失、标签平滑正则化的交叉熵损失和在线软挖掘类感知注意损失的联合损失函数进行模型度量学习,使得同一标签类对象在嵌入空间上计算的距离比较近,不同标签类的对象之间的距离则比较远,进一步提高视频行人重识别的精度。(3)在视频行人重识别公开数据集:PRID-2011、Duke MTMC-Video Re ID和MARS上对所提的基于时序建模和注意力机制方法进行验证,实验结果表明:联合均等采样随机擦除和全局时间特征池化的方法能有效地提取具有判别力的行人特征表示,且有效缓解遮挡问题,在PRID-2011上,Rank-1达到了95.5%,m AP达到了97.0%;在Duke MTMC-Video Re ID上,Rank-1达到了93.6%,m AP达到了92.8%;在MARS上,Rank-1达到了86.1%,m AP达到了80.5%。融合非局部注意力模块和联合损失函数使网络能够考虑不同帧和不同空间位置,用全局片段信息丰富局部图像特征,再使用联合损失度量函数的方法计算特征之间的相似性,有效地区分相同的行人和不同的行人,再次提高识别精度。在Duke MTMC-Video Re ID上,Rank-1达到了96.2%,m AP达到了95.4%;在MARS上,Rank-1达到了88.9%,m AP达到了83.9%。由此,所提两种方法,相比于目前一些先进的视频行人重识别方法,具有一定的竞争力。
暂无评论