针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic ...
详细信息
针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering, MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.
暂无评论