行人重识别的目的是判断无交叉的摄像机所拍摄的行人是不是同一身份。根据数据的组成不同,可以分为基于图片和基于视频两大类,相比于单张图片,视频行人重识别是由多张图片组成的视频片段,包含更丰富的时间信息,而且摄像机拍摄的原本就是视频数据,更容易获取,因此本文的研究主要以视频行人重识别方法为主。目前,大多数方法都是基于有监督的设置并且已经获得了很好的性能,但是现实场景中,最初获得的视频数据往往是无标记的,如果利用这些无标记视频数据进行无监督的学习,将节省巨大的人工和金钱成本,是十分有意义的。为了减少对行人视频序列的标记,本文提出了两种在分层聚类框架下的无监督方法,主要工作内容如下:(1)提出一种基于多样性约束和离散度的聚类准则,充分考虑类内和类间视频序列之间的距离,从而提高聚类的准确性。具体来说,类内离散度是计算类内视频序列的紧凑程度,类间离散度是计算两类之间视频序列的分离程度,多样性约束是为了让每类中的视频序列数达到平衡,通过将三者结合,来选择相似的类进行合并。此外,利用聚类互斥损失来训练网络,损失参数会随着聚类合并次数线性更新,从而使模型更稳定。训练阶段和聚类阶段循环交替的进行,直至模型达到最优。(2)提出一种联合全局-局部度量的聚类合并方法,联合考虑视频序列的全局信息和视频帧之间的局部信息,以更好的区分同一行人的不同外貌。利用全局和局部特征,计算全局和局部相似性,同时以多样性约束为辅助,进行聚类合并和评估。训练过程中,联合聚类互斥损失和中心损失一起优化网络,可以在扩大类间视频序列差异的同时减少类内视频序列的差异。(3)在视频行人重识别两个大型数据集MARS和Duk MTMCVideo Re ID上进行实验证明,相比于其他的无监督方法,本文方法的识别精度更高,模型更稳定。
暂无评论