已有基于强化学习的交通信号控制方法主要使用历史交通状态和当前时间步的实时交通状态来确定下一个时间步的控制策略,存在控制策略始终滞后于交通状态一个时间步的问题。为了解决该问题,本文提出了一种基于融合了交通状态预测的深度强化学习优势演员评论家(Advantage Actor-Critic, A2C)的交通信号控制方法。首先,为了获取未来时间步的交通状态,以确保制定的控制策略能够更精准地响应实时交通状态下的决策需求,设计了一个长短时记忆网络(Long-Short Term Memory, LSTM)预测路网未来时间步的交通状态。另外,为了提高输入深度强化学习模型中数据的准确性和鲁棒性,设计了一个卡尔曼滤波器对采集的历史交通状态数据和LSTM预测的未来交通状态数据进行融合。其次,为了使深度强化学习模型能够更全面地理解交通流中包含的时间依赖关系,并实现更高效和稳定的交通信号控制决策,提出了一种融合双向LSTM的优势演员评论家A2C算法。最后,基于微观交通仿真平台SUMO(Simulation of Urban Mobility)的仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习A2C的交通信号控制方法相比,本文提出的方法在平峰和高峰两种不同交通流量状态下均能够取得更好的交通信号控制效益。
暂无评论