人体姿态估计旨在定位图像、视频中的人体关键点,是机器理解人体动作的基础,可应用于人机交互、动作/行为识别,动作检测,人体跟踪等多种领域,是当前计算机视觉领域的研究热点之一。目前人体姿态估计算法在静态图像上取得了一定的研究成果,但视频数据中的图像质量受运动模糊、视频失焦等因素影响,使得现有方法在视频数据上表现不佳。本文深入挖掘视频的时空特征,在时间角度对特征和高级语义进行增强,提出了基于视频的2D人体姿态估计算法;在空间角度利用关键点位置与人体网格顶点进行互补增强,提出了基于视频的3D人体姿态估计算法。具体内容如下:(1)现有视频人体姿态估计方法多在单帧图像输出的语义(热度图)层进行修正,忽略了特征对输出影响。本文提出了基于特征和语义修正的2D人体姿态估计网络。网络先在特征层面使用多尺度特征对齐与注意力模块对估计结果进行修正,然后在语义层面提取热度图之间的差异特征,结合可变形卷积进行修正。提出的模型在Posetrack2017和Posetrack2018两个大型基准数据集上进行实验验证,分别取得了83.0 m AP和81.0 m AP的结果。(2)现有的基于SMPL(Skinned Multi-Person Linear Model)模型的3D人体姿态估计方法多使用3D关键点坐标回归模型参数。由于关键点坐标缺少人体旋转和形状信息,导致生成的最终模型不够准确。本文提出了基于时空注意力和人体网格顶点互补增强的3D人体姿态估计网络。网络以堆叠的时空注意力结构捕获关键点的时空特征并生成3D坐标;同时对骨干网生成的特征进行多尺度特征提取以生成部分SMPL模型顶点坐标;最终联合3D人体关键点坐标与顶点坐标回归SMPL模型参数。提出的模型在3DPW和Human3.6M两个大型基准数据集上进行实验验证,分别取得了51.8 PA-MPJPE和47.2 PA-MPJPE的结果。
暂无评论