行人重识别是计算机视觉领域中的一个重要研究方向,其目的是在不同的监控摄像头中识别并跟踪同一行人.由于视频帧间存在多种时间关系,从这些关系中可以获取到对象的运动模式以及细粒度特征,因此视频重识别相比图像重识别拥有更丰富的时空线索,也更接近实际应用.问题的关键是如何挖掘这些时空线索作为视频重识别的特征.本文针对视频行人重识别问题,提出了一种基于Transformer的长短期时间关系网络(Long and Short Time Transformer,LSTT).该网络包含长短期时间关系模块,提取重要时序信息并强化特征表示.长期时间关系模块利用记忆线索存储每帧信息,并在每一帧建立全局联系;短期时间关系模块则考虑相邻帧之间交互,学习细粒度目标信息,提高特征表示能力.此外,为了提高模型对不同目标特征的适配性,本文还设计了一个包含不同规格卷积核的多尺度模块.该模块具有多种卷积感受野,能够更全面覆盖目标区域,从而进一步提高模型的泛化性能.在MARS、MARS_DL和iLIDS-VID 3个数据集上的实验结果表明,LSTT模型性能最优.
使用图像信息补充三维点云的几何和纹理信息,可以对三维物体进行有效地检测与分类。为了能够更好地将图像特征融入点云,设计了一个端到端的深度神经网络,提出了一个新颖的融合模块PI-Fusion(point cloud and image fusion),使用图像特...
详细信息
使用图像信息补充三维点云的几何和纹理信息,可以对三维物体进行有效地检测与分类。为了能够更好地将图像特征融入点云,设计了一个端到端的深度神经网络,提出了一个新颖的融合模块PI-Fusion(point cloud and image fusion),使用图像特征以逐点融合的方式来增强点云的语义信息。另外,在点云下采样的过程中,使用距离最远点采样和特征最远点采样的融合采样方式,以在小目标上采样到更多的点。经过融合图像和点云特征的三次下采样之后,通过一个候选点生成层将点移动到目标物体的中心。最后,通过一个单阶段目标检测头,得出分类置信度和回归框。在公开数据集KITTI的实验表明,与3DSSD相比,此方法在简单、中等、困难难度的检测上分别提升了3.37、1.92、1.58个百分点。
暂无评论