关键词:
服务机器人
避障算法
深度强化学习
最优值函数
奖励函数
摘要:
在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交要求,才能被人类接受。为了提升多智能体在动态场景中的自主导航能力,针对多智能体导航中社会适应性低和寻找最优值函数问题,提出了一种动态环境下共融机器人深度强化学习避障算法。建立了更贴近人类行为的运动模型并将其添加到深度强化学习框架中,用于提高共融机器人的合作性;为了在行人物理安全的基础上提升其感知安全,重新制定了奖励函数;利用非线性深度神经网络代替传统的值函数,解决寻找最优值函数问题。仿真实验显示,相较于最新的深度强化学习导航方法,该方法在不增加导航时间的情况下实现了100%的导航成功率,且没有发生任何碰撞。结果表明,该方法使共融机器人最大限度地满足人类的社交原则,同时朝着目标前进,有效提高了行人的感知安全。