关键词:
元学习
强化学习
列车自动驾驶
调度时间调整
临时限速调整
摘要:
在强化学习优化列车驾驶速度曲线中,当面临复杂运行环境和多变运营需求时,存在难以快速生成优化的驾驶策略的问题。鉴于此,在强化学习基础上,与元学习相结合,综合考虑影响列车能耗的诸多因素,提出一种基于元强化学习的列车智能驾驶快速适应优化算法。该算法由内层学习器和元学习器2个部分组成,内层学习器采用强化学习PPO算法更新任务参数后把参数和损失函数输送到元学习器;元学习器利用这些信息更新任务参数,找到最优解,得到可以快速适应新任务且准确度高的元学习模型。仿真实验结果表明所提算法在新任务下学习效率优势显著,在满足舒适度、准时和停车精度的同时与传统的TRPO,PPO和MAML算法相比分别有效降低能耗6.14%,3.22%和1.40%,达到基准目标所需的迭代回合数仅分别为上述算法的28.57%,30.78%和52.29%,为元学习在列车智能驾驶领域研究的应用提供有效参考。