版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:北京交通大学机械与电子控制工程学院 武汉京东方光电科技有限公司 北京工业大学信息科学技术学院
出 版 物:《控制与决策》 (Control and Decision)
年 卷 期:2025年第40卷第6期
页 面:1838-1846页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61903022,62173155) 载运工具先进制造与测控技术教育部重点实验室(北京交通大学)开放课题基金项目
主 题:多智能体路径规划 深度强化学习 抗冗余 预训练-微调
摘 要:对于部分可观马尔可夫决策过程下的多智能体路径规划任务,现有研究基于栅格或质点环境,与真实物理环境有较大差距.鉴于此,研究如何在更加接近实际物理约束环境下提升多智能体协同路径规划的效果.一方面,在考虑真实物理约束的情况下,根据执行器饱和以及欠驱动等构建多约束动作空间,根据距离和位置等搭建多源输入状态空间,设计抗冗余奖励函数来减小无人车行驶过程中动作冗余;另一方面,针对在Gazebo环境下训练难度高、效率低、难收敛等问题,提出基于预训练-微调方法的多智能体双延迟深度确定性策略梯度算法,利用预训练使得模型获得一个更优的初始值,提升训练效率,同时,利用微调对预训练先验模型进行针对性优化,增强模型训练过程抵抗环境非平稳性能力.在Gazebo仿真环境中,通过与PMATD3、MATD3、MADDPG等算法对比,验证所提出算法的有效性.