针对高冗余蛇形机械臂在三维空间中的路径规划问题,结合快速搜索随机树算法(Rapidly-exploring Random Tree,RRT),提出角度约束快速搜索随机树算法(Angle Constraint Rapidly-exploring Random Tree,AC-RRT)。首先根据空间中障碍物分布...
详细信息
针对高冗余蛇形机械臂在三维空间中的路径规划问题,结合快速搜索随机树算法(Rapidly-exploring Random Tree,RRT),提出角度约束快速搜索随机树算法(Angle Constraint Rapidly-exploring Random Tree,AC-RRT)。首先根据空间中障碍物分布关系提出一种步长与目标偏置概率的确定方法,提高算法的自适应能力;其次根据蛇形机械臂机械结构提出一种随机树延伸的角度约束模型,使规划路径更加符合机械臂的空间运动特性;最后引入一种目标点贪婪查询方法,缩短路径搜索时间、减少冗余节点。通过Matlab仿真并对比与RRT和RRT-connect算法之间的性能差异,使用V-REP软件结合机械臂模型对算法模拟仿真,验证算法的可行性。结果表明AC-RRT算法路径规划用时更短、路径代价更小、路径轨迹更符合机械臂的运动特性。
目的 视频文本跨模态检索旨在从视频库或给定视频中检索出语义上与给定查询文本最相似的视频或视频片段,是视频理解的重要应用之一。现有方法主要聚焦于如何通过跨模态交互提高模态间的语义匹配,但忽略了目前数据集存在一个查询文本对应多个视频片段或视频的问题。该问题在训练过程中可能导致模型混淆,制约模型性能。为此,提出一种大语言模型引导的视频检索数据迭代优化方法。方法 通过视觉文本相似度定位出数据集中存在一对多问题的查询文本及对应视频,并提取视频中未被查询文本所描述的对象、详细外观、颜色属性等细粒度信息。将这些信息与原查询文本输入到大语言模型中总结优化为更细粒度的查询文本。通过基于视频文本语义关联的迭代条件判断,自动选择优化当前提示并进行下一轮优化或退出优化过程,从而不断优化查询文本。将优化后的数据用于视频文本跨模态检索模型的训练。结果 在视频片段检索任务上,4种神经网络模型在使用了本文方法优化后的Charades文本时序标注(charades-sentence temporal annotations,Charades-STA)数据集进行训练,在交并比(intersection over union, IoU)为0.5时,首一召回率(Recall@Top1,R@1)平均提升2.42%,在基于查询的视频高光时刻检测(query-based video highlights,QVHighlights)数据集上,2种神经网络模型平均提升3.42%。在视频检索中,2种神经网络模型在微软视频文本检索(Microsoft research video to text,MSR-VTT)数据集的R@1指标上平均提升1.4%。结论 提出的大语言模型引导的视频检索数据迭代优化方法,缓解了数据集中存在的一对多问题,使模型性能显著提升。
暂无评论