对城市道路交通进行有效地智能化调控,可以缓解拥堵,缩短出行时间,维护社会稳定,有重要的理论价值和实际意义。为此提出顾及路口压力的多智能体Actor-Critic算法。先设计缓解路口压力的强化学习策略,构建基于深度神经网络的多智能体Actor-Critic模型,通过Actor-Critic算法生成行动并做出判别。在SUMO(Simulation of Urban Mobility)平台上模拟交通网络,与三种传统交通信号调控算法进行对比。实验结果表明,所提方法使车辆到达数量提升了12%、车辆平均速度提升了5%,优于其它基准算法。
近年来,随着人工智能技术的不断开拓和智能体领域的不断深入,单智能体深度强化学习领域产出了许多优秀成果。为了解决较复杂的团队任务,深度强化学习逐渐被引入至多智能体范畴中。在多智能体系统中,多智能体覆盖控制任务是最典型的多智能体协同问题之一,对此传统单智能体深度强化学习算法难以有效收敛,且学习效率和效果不佳。本文针对智能制造车间中的多机器人搬运系统展开研究,将其抽象为多固定库房点的多智能体覆盖控制问题,并展开以下研究:首先,针对深度强化学习在多智能体覆盖控制系统应用中存在的训练结果不能平稳收敛的问题,提出了一种基于改进Adam优化器的近端策略优化深度强化学习算法IAAC(Improve Adam Actor Critic)。首先,使用样本池机制将智能体与环境互动的结果存储起来并在多智能体训练中提供相应的样本。然后,通过集中式学习、分散式执行的方式,与AC框架(Actor-Critic)相结合训练出一个中心化的可近似拟合真实Q值的评论家(Critic)网络,采用双网络部分继承进行网络参数的更新。最后,在梯度下降过程中引入快慢权重参数更新,用以提高收敛效果和学习效率。然后,针对多智能体深度强化学习算法的复杂度和特征矩阵计算量过大的问题,提出一种基于改进Soft Max层多头注意力机制的多智能体覆盖控制任务模型LSA-MAL(Linear Soft Max Attention Multi-Agent Landmark)。首先,引入多头注意力机制,将输入特征映射成Q、K、V三个特征,通过部分点乘加权映射得到一个新的特征。然后,将Soft Max层的推导公式线性化展开,并对展开公式部分L2归一化,使得线性展开能够模拟原Soft Max映射函数。最后,使用改进后的线性公式代替Soft Max层在多头注意力中的应用。最后,构建了基于多智能体粒子的仿真环境,对基于改进Adam优化器的近端策略优化深度强化学习算法IAAC与基于改进Soft Max层多头注意力机制的多智能体覆盖控制任务模型LSA-MAL进行对比实验与分析。实验结果证明了改进算法与模型的有效性,能够在保持成功率的同时,提高智能体的训练速度和收敛性。
暂无评论