不同于传统的强化学习,在模仿学习中,智能体的任务是从专家的演示数据中进行学习。广义上的模仿学习包含了直接学习专家行为的行为克隆以及先学习奖励函数,再据此学习行为的学徒学习。基于这两种学习方法的思想,本文进一步结合了前沿的模仿学习研究,根据不适定性问题的正则化约束求解思想,提出了基于轨迹奖励先验的约束最大熵模仿学习算法,使得智能体在策略学习过程中获得了很好的鲁棒性。首先,算法借鉴了随机强化学习中的最大熵策略学习框架,并且运用在模仿学习中,使得智能体最终学到的策略拥有尽可能更多的方式逼近设定目标。接着,算法引入了奖励函数约束的概念,通过奖励先验的稀疏性缓解了策略学习的过拟合问题,并且考虑了环境的动态转移概率,使得智能体在环境中可以学会多步规划的策略。进一步地,算法引入了正则化残差项的概念,通过对轨迹数据奖励先验的估计,进行正则化力度区分,以鼓励智能体在对应的环境状态之下,执行对应于专家行为的动作。最后,算法将轨迹数据视为正样本及无标签数据,采用了正样本分布变分推断的方式,训练了轨迹数据最优贝叶斯分类器,使得奖励先验可以随着模仿学习的过程动态更新。在Open AI Gym平台的Mu Jo Co物理引擎之上,我们选取了七个机器人控制任务进行模仿学习任务的部署,并且与四种具有代表性的学习算法进行对比。可以发现,本文提出的算法明显优于对比中其他的模仿学习算法。通过实验结果可以发现,算法中最大熵策略的思想使得智能体策略可以随训练逐步提升,而轨迹数据的贝叶斯分类器又放宽了对智能体当前策略中优秀行为的约束。
暂无评论