关键词:
多智能体路径规划
深度强化学习
抗冗余
预训练-微调
摘要:
对于部分可观马尔科夫决策过程下的多智能体路径规划任务,现有研究基于栅格或者质点环境,和真实物理环境有较大差距.研究如何在更加接近实际物理约束环境下提升多智能体协同路径规划的效果.一方面,在考虑真实物理约束的情况下,根据执行器饱和与欠驱动等构建多约束动作空间,根据距离与位置等搭建多源输入状态空间,设计抗冗余奖励函数以减小无人车行驶过程中动作冗余.另一方面,针对在Gazebo环境下训练难度高、效率低、难收敛等问题,提出基于预训练-微调方法的多智能体双延迟深度确定性策略梯度算法,利用预训练使模型获得一个更优的初始值,提升训练效率,同时利用微调对预训练先验模型进行针对性优化,增强了模型训练过程抵抗环境非平稳性能力.在Gazebo仿真环境中,通过与PMATD3、MATD3、MADDPG等算法对比,验证了所提出算法的有效性.