无人驾驶技术一直以来都是学者研究的重要方向,近些年人工智能产业、高精度雷达技术的高速发展以及5G技术的商用等都对自动驾驶技术的发展提供了很大支持。深度强化学习集深度学习的感知能力和强化学习的决策能力于一体,对于处理自动驾驶这种需要感知环境并进行驾驶决策的领域具有良好的适用性,所以利用深度强化学习算法进行决策技术的研究具有很重要的现实意义。通过分析无人驾驶技术和深度强化学习技术的现状,针对不同深度强化学习算法的局限性选择了适合连续动作的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)在TORCS(The Open Racing Car Simulator)环境中进行自动驾驶决策策略的学习。分析DDPG算法实验得到的结果可知原始算法具有训练速度慢、训练过程不稳定的情况。针对该情况提出了双重指导的平均深度确定性策略梯度算法(Average Deep Deterministic Policy Gradient for Double Imitation,Average-DDPGf DI)算法。Average-DDPGf DI算法针对原始算法训练速度慢的情况利用专家控制器对原始算法的训练过程进行在线和离线两部分的指导学习来提升算法的学习速度。利用专家控制器进行专家数据的收集和标签标定,然后采用经验池分离技术,将专家经验样本、高质量经验样本和低质量经验样本进行隔离存放,三者共同构成完整的经验池。由于原始算法中采用的Actor-Critic结构是通过Critic网络(评价网络)对Actor网络(策略网络)进行指导来学习策略,所以针对不同的经验样本我们设计并采用了不同的损失函数来进行评价网络参数的更新。Average-DDPGf DI算法针对原始算法训练过程不稳定的情况设计了更符合道路行驶的回报函数,考虑让车辆行驶在道路中线,避免转弯驶出当前道路。同时考虑车辆在直线行驶获得较大回报,在弯道行驶减速安全通过,所以该回报函数对于车身位置和车辆行驶速度进行了限制。对于原始算法中评价网络的过估计情况,采用双重评价网络和平均评价网络的估计值来进行过估计值的约束。降低策略网络和目标网络的更新速度减小累计误差,通过四者结合的方式来稳定训练过程。最后在TORCS仿真平台上对改进前后的算法进行了测试分析。实验数据表明:在策略学习速度方面,Average-DDPGf DI较原始算法提升一倍左右;采取四个历史评价值的平均值进行训练时,学习过程更加稳定,平均回报稳步上升;利用双重评价网络可以使车辆的有效行驶距离提升三倍甚至更远。结论符合理论预期,证实了文本思路的可行性。
暂无评论