城市道路视频描述存在仅考虑视觉信息而忽视了同样重要的音频信息的问题,多模态融合算法是解决此问题的方案之一。针对现有基于Transformer的多模态融合算法都存在着模态之间融合性能低、计算复杂度高的问题,为了提高多模态信息之间的交互性,提出了一种新的基于Transformer的视频描述模型多模态注意力瓶颈视频描述(multimodal attention bottleneck for video captioning,MABVC)。首先使用预训练好的I3D和VGGish网络提取视频的视觉和音频特征并将提取好的特征输入到Transformer模型当中,然后解码器部分分别训练两个模态的信息再进行多模态的融合,最后将解码器输出的结果经过处理生成人们可以理解的文本描述。在通用数据集MSR-VTT、MSVD和自建数据集BUUISE上进行对比实验,通过评价指标对模型进行验证。实验结果表明,基于多模态注意力融合的视频描述模型在各个指标上都有明显提升。该模型在交通场景数据集上依旧能够取得良好的效果,在智能驾驶行业具有很大的应用前景。
为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert)。该算法依据样...
详细信息
为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert)。该算法依据样本价值将样本池分类,使用专家数据预训练网络,缩小无人车无效探索空间、降低试错次数,有效提升算法学习效率。同时设计一种面向多障碍物的奖励函数增强算法适用性。在CARLA平台进行仿真实验,结果表明所提出方法可以更好地控制无人车在环境中安全行驶,同等训练次数下所得奖励值和收敛速度优于TD3(twin delayed deep deterministic policy gradient algorithm)和SAC算法。最后,结合雷达点云地图与PID(proportional integral derivative)控制方法缩小仿真环境与真实场景差异性,将训练所得模型移植到园区低速无人车中验证算法泛用性。
针对复杂背景下隧道的细小裂缝图像特征难以提取以及裂缝像素类别不平衡等问题,提出了一种改进U-Net网络的隧道裂缝分割算法。将U-Net模型的编码器和解码器与残差模块相结合,使得网络参数共享,并避免出现深层网络梯度消失的问题;在此结构基础上引入挤压和激励(Squeeze and Excitation,SE)模块来提升重要特征,抑制无用特征,加强对裂缝边缘和形状等特征的权重分配;采用组合损失函数来处理裂缝像素正负样本不平衡的问题,进一步获得更加精细的分割结果。在公共隧道裂缝数据集和自制数据集上设计对比实验来验证改进模型的有效性。结果表明:该算法对裂缝的分割精度均优于其他方法,F1-Score分别达到了76.36%和75.46%,并且运行速度也有明显的提升,可以很好地满足实际工程的应用需求。
暂无评论