版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:济南大学
学位级别:硕士
导师姓名:吕娜
授予年度:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:自21世纪初以来,随着计算机软硬件的快速发展,计算机图形学和数字多媒体技术的进步,人体运动模拟得到了广泛的应用。随着多媒体技术的迅速进步和人体运动捕捉设备的普及,目前已经积累了大量高度逼真的三维人体运动捕捉数据。这些数据在三维动画制作、电影产业和游戏开发等领域发挥了重要作用。面对如此庞大的数据量,有效的管理和重新利用这些运动捕捉数据成为开发者亟须解决的问题。因此,设计高效的运动捕捉数据检索算法变得尤为重要。 本文以多种模态的人体运动数据间高效快速地检索为目的,提出了MoCap(Motion Capture,MoCap)数据与视频动作数据的跨模态检索方法;MoCap数据、KiCap(Kinect Capture,KiCap)数据与视频动作数据的跨模态检索方法;跨MoCap数据与文本数据的检索方法。本文的创新之处主要在于以下三个方面: (1)提出MoCap数据与视频动作数据的跨模态检索方法:本文提出MoCap数据与视频动作数据的跨模态检索方法,该方法独立地对两种数据模态执行特定的特征提取过程,以获得高维特征表示。利用自编码器对高维特征进行重构。并通过引入预定义的公共子空间,旨在扩大不同类别间的差异同时缩小同类别内的差异。此外,使用相似性矩阵来调整两种数据模态之间的关联,利用其潜在的相互关系来完成MoCap数据和视频动作数据之间的检索。相较于当前先进的MoCap数据检索方法,本文所提出的算法能够实现更高的检索精确度。 (2)提出基于二分类器的多模态运动数据检索方法:本文引入通过Kinect设备捕获的运动数据(KiCap)作为新模态,与MoCap数据和视频数据并列,丰富了跨模态检索的数据类型。为此,设计了基于Transformer的特征提取器,并通过哈希学习的方式获取特征的哈希码,实现不同模态间基于哈希码的特征匹配,最终通过二分类器学习数据样本对。这增强了处理多种运动数据的能力,简化了跨模态检索流程。 (3)提出基于注意力融合的MoCap数据与文本数据的可微分哈希检索方法:本文通过引入文本数据与MoCap的跨模态检索。获取和处理文本数据比视频数据更简单和经济。利用文本进行跨模态检索增强了对MoCap数据的理解和分析。针对这一任务,本文设计了基于Transformer的双流模型,引入可微分哈希学习的方法提高检索效率,并通过跨模态注意力机制探索MoCap与文本数据间的细微交互,挖掘它们的语义关联,有效地实现了跨模态检索。在公开的KIT-ML数据集和Human ML3D数据集上进行的实验结果显示,本文所提出的算法也能够实现较高的检索精度。