目的随着实际应用场景中海量数据采集技术的发展和数据标注成本的不断增加,自监督学习成为海量数据分析的一个重要策略。然而,如何从海量数据中抽取有用的监督信息,并该监督信息下开展有效的学习仍然是制约该方向发展的研究难点。为此,提出了一个基于共识图学习的自监督集成聚类框架。方法框架主要包括3个功能模块。首先,利用集成学习中多个基学习器构建共识图;其次,利用图神经网络分析共识图,捕获节点优化表示和节点的聚类结构,并从聚类中挑选高置信度的节点子集及对应的类标签生成监督信息;再次,在此标签监督下,联合其他无标注样本更新集成成员基学习器。交替迭代上述功能块,最终提高无监督聚类的性能。结果为验证该框架的有效性,在标准数据集(包括图像和文本数据)上设计了一系列实验。实验结果表明,所提方法在性能上一致优于现有聚类方法。尤其是在MNIST-Test(modified national institute of standards and technology database)上,本文方法实现了97.78%的准确率,比已有最佳方法高出3.85%。结论该方法旨在利用图表示学习提升自监督学习中监督信息捕获的能力,监督信息的有效获取进一步强化了集成学习中成员构建的能力,最终提升了无监督海量数据本质结构的挖掘性能。
随着社会安全意识的提高,城镇的一些重要场所对监控摄像头的需求越来越大。行人重识别受到了专家学者的关注,大量成果涌现而出。行人重识别主要有两种:图像行人重识别和视频行人重识别。前者利用行人图像匹配同一行人在不同摄像机视图下的行人图像,后者直接利用信息更加丰富的行人视频片段匹配同一行人在不同的摄像机视图下的行人视频片段。为了达到数据集标注少但模型精度高的目的,本文着重研究单标注样本视频行人重识别,针对单标注样本视频行人重识别的难点,提出了两种解决方案改进算法使得模型更加鲁棒。(1)针对视频行人重识别数据集标注困难,单标注场景下的伪标签数据错误过多导致最终模型不够鲁棒的问题,提出了基于近邻中心迭代策略的单标注样本视频行人重识别。该策略以Res Net-50作为主干网络,采用渐进式学习方式,每轮训练算出有标签数据和可靠伪标签数据并集的所有特征点的中心点,用于更新标签估计的度量中心点,使得越往后的训练轮次的度量中心点越接近类的真实中心点,从而得到更多准确的伪标签数据;同时提出了一个基于交叉熵损失和在线实例匹配损失的损失控制策略,使得训练过程更加稳定、类内距离更小、无标签数据伪标签更加准确、最终的模型性能更好。(2)针对单标注样本视频行人重识别迭代过程中,将有标签数据作为固定度量中心点导致伪标签错误率高,和用最短欧氏距离作为伪标签置信度导致选取过多错误伪标签数据用于下一次训练的问题,提出了基于中心协同策略和联合置信度采样的单标注样本视频行人重识别。中心协同策略是在被选入下一轮的可靠伪标签数据中选出更加可靠的伪标签数据,并求出这些更加可靠的伪标签数据中每个类的中心点,将伪标签数据中心点与唯一有标签数据联合求出新的中心点,并且中心点会更偏向数量较多的伪标签数据中心,此中心点用于下一次训练时进行标签评估;联合置信度采样将最短欧氏距离、最短欧氏距离和次短欧氏距离的比值联合计算出最终值作为伪标签置信度,用于伪标签数据的选取,使得用于下一次训练的伪标签数据更加准确。最终在视频行人重识别的两个大型数据集MARS和Duke MTMCVideo Re ID上,通过一系列消融实验,证实了近邻中心迭代策略、损失函数联合训练策略、中心协同策略、联合置信度采样的有效性。并且最终结果与最新的单标注样本视频行人重识别方法进行对比,进一步证实了所提出的两种解决方案的有效性。
暂无评论