近年来,随着自动驾驶行业的蓬勃发展,作为感知系统核心的三维目标检测技术受到越来越多的关注,已成为当前热门的研究方向。同时,深度学习的广泛应用,使得最近的三维目标检测技术有了很大的突破,大批优秀的算法涌现。文中系统地总结了面向自动驾驶领域的三维目标检测方法,并按传感器类型将现有的算法分为3类,即基于图像的三维目标检测、基于LiDAR的三维目标检测和基于多传感器的三维目标检测;其次,详细分析了3种方法的优缺点,并对基于LiDAR的三维目标检测算法进行了深入调研和细分;然后,介绍了自动驾驶领域常用的三维目标检测数据集,包括KITTI,nuScenes和Waymo Open Dataset,并对比了最新的三维目标检测算法在不同数据集上的性能表现;最后探讨了三维目标检测技术未来的发展方向。
说话人视频的情感编辑是计算机视觉和图形学当前研究热点之一,其目的是将一段中性情感的人物说话视频转为带有目标情感的说话视频.已有的方法难以同时兼顾高清晰度情感编辑、人脸三维属性的保持以及模型对不同目标人物的适用性.为同时满足上述要求,本文提出基于Basel人脸模型(Basel face model,BFM)条件的几何编辑网络作为几何情感编辑模块,保证了几何编辑在不同目标人物场景下的通用性;提出了基于人物分类器的纹理情感编辑模块,使得精细纹理的编辑可以迁移到多人任务之中,突破了以往情感编辑模型仅适用特定目标人物或适用多人模型生成质量不高的局限性.本文提出的模型可以实现连续控制情感编辑强度的效果.实验结果表明,本文提出的通用情感编辑模型在多人任务上的清晰度、人物保真度、情感编辑质量等各项指标均优于已有可适用于多人情感编辑的方法,并且在训练集中未出现的目标人物上也能实现自然的情感编辑,甚至在未见的人脸位姿的说话视频中也能获得合理的结果.
暂无评论