随着云计算和边缘计算的快速发展,人们已经习惯于生活在摄像机下和参与视频共享社交服务。大量的视频信息吸引了越来越多的研究者进入视频理解领域,动作识别是视频理解中的一个基本问题,在监控系统、人机交互和视频检索等领域拥有广泛的应用。由于深度学习技术和大规模标记数据集的发展,近年来监督动作识别的研究进展迅速。然而,由于隐私伦理、收集成本和标签成本等因素,部分动作类别难以获得充足的样本数据,导致传统的方法面临着可拓展性问题,因此小样本动作识别研究具有较大的现实意义。目前该任务仍处于研究的初期阶段,具有巨大发展潜力,同样也面临重大的挑战。为此,本文提出了一种高效视频时空特征提取方法,并分别在原型网络和数据增强两种小样本学习方法上设计了动作识别模型,主要研究内容如下:(1)高效地理解视频的细粒度时空信息对小样本动作识别具有举足轻重的作用,本文提出基于时空分离和长程时间建模的高效时空特征提取单元,它通过嵌入残差分支中增强2D Res Net的运动特征建模能力。首先,时空动态门控模块利用相邻帧的特征差异量近似衡量运动的显著性,并以该差异量作为门控向量将特征分离为运动强相关特征和运动弱相关特征,分别用于时间和空间建模。然后,时间注意力聚合模块对运动强相关特征进行通道分组,构建时间金字塔结构捕获不同跨度的时间特征,并利用注意力机制聚合各组特征实现长程时间建模。实验表明本文方法能有效提高视频时空建模能力,提升动作识别准确率。(2)针对原型网络中采用元任务学习形式存在的任务不相关问题,以及支持集中类内离群样本和类间分布重叠问题,本文提出基于任务相关和分布修正的小样本动作识别方法。首先,任务感知学习模块捕获任务学习中样本特征间的内部关系,并依赖该关系学习每个样本关注特定任务的特征表示。然后,类别感知修正模块聚焦度量空间中类内样本特征的位置分布,重新计算原型表示,减轻类内离群样本的影响,并优化所有类别之间的距离,提高类间分离度,缓解类间重叠问题。在相关数据集上的实验结果表明,本文方法优于其他新近提出的方法,可以显著提高小样本动作识别的准确率。(3)针对数据增强方法中使用GAN无法合成具有辨别力的视觉特征问题,以及基类和新类之间的信息无法有效过渡问题,本文提出基于数据合成和知识驱动的小样本动作识别方法。首先,跨模态视觉特征生成器利用标签语义信息作为条件元素进行判别信息挖掘,合成具有辨别力的新类视觉特征,补充新类样本数量。然后,知识驱动动作分类器利用外部知识构建表示动作类之间关系的知识关系图,并使用图卷积神经网络优化知识关系图中的节点关系,形成动作节点分类器。通过与其他数据增强方法的比较和分析,结果得出本文方法在标准小样本学习和广义小样本学习上均有更好的表现。
暂无评论