针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。
针对智能体数量过高、环境较复杂时,多智能体强化学习效果不佳、难以得到有效策略等问题,本文结合课程学习训练策略,采用多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的框架,构建出...
详细信息
针对智能体数量过高、环境较复杂时,多智能体强化学习效果不佳、难以得到有效策略等问题,本文结合课程学习训练策略,采用多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的框架,构建出基于课程学习的MADDPG算法框架。本文的创新之处是搭建了一个容纳大规模无人机进行博弈对抗的仿真环境,并应用课程学习策略改进MADDPG算法,提高了对抗策略的有效性。仿真结果表明,基于课程学习的MADDPG算法与传统算法相比,在训练收敛速率、平均奖励值以及对抗胜率方面均有显著提高,且双方无人机集群对抗数量越多,基于课程学习的MADDPG算法训练的策略优越性越显著。
暂无评论