深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法在自动驾驶领域中应用广泛,但ddpg算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-ddpg)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-ddpg算法的性能进行了测试,结果表明相对于ddpg算法,P-ddpg算法的累积奖励在25回合之后就有明显提升而ddpg在100回合之后训练效果才逐渐显现,提升约4倍.P-ddpg算法不仅训练效率提升且收敛速度加快.
暂无评论