基于环境模型的强化学习提供了一种处理序列决策问题的范式:智能体首先从过去的经验中学习环境的动力学模型,然后将该模型视为环境的模拟器,通过与该模拟器进行交互来学习策略。与无模型强化学习方法相比,基于环境模型的强化学习方法能够更充分地从过去的经验中汲取与环境相关的信息,因此在样本利用率方面普遍拥有较大优势。
然而,尽管样本效率较高,基于环境模型强化学习方法的渐进性能往往不如无模型强化学习算法。模型的精确性被认为是制约其渐进性能的关键问题之一:一个不精确的模型会生成偏差较大的样本,对后续的策略学习造成误导。在典型的基于模型的强化学习算法中,模型在此前策略收集到的数据上进行监督学习。随着策略在模型内迭代更新,模型在新策略所引导出的状态分布上往往由于缺少相关数据而无法精确模拟真实环境。对此,本文的第一个贡献是提出了针对这一问题的解决方法(Plan to Predict算法),通过将模型作为多步序列决策者(即,将模型对环境转移函数的预测作为其“动作”),将策略作为模型的“环境”,令模型在学习过程中主动适应新策略,生成在当前策略下累积误差最小的轨迹。本文从策略提升下界的角度证明了这一方法的理论优越性,并在Mu Jo Co机器人仿真平台上验证了算法的有效性。
与单智能体场景相比,多智能体系统的联合状态-动作空间随智能体个数呈指数级增长,因此难以对全局的环境模型的进行精确拟合。针对这一问题,此前有工作表明,只学习局部模型,预测与对应智能体相关的环境信息便足以帮助各个智能体做决策。然而,局部模型的误差在策略与模型的多步交互中容易传导到其他局部模型中,造成较大的全局误差。为了最小化全局的模型误差,本文的第二个贡献是提出了Models as Agents算法,将各个局部模型视为独立的决策者,在考虑到和其他局部模型交互的前提下优化自身的轨迹预测。对这一方法,本文同样从理论(联合策略提升下界)和实验(星际争霸Ⅱ)两方面证明了其有效性。
在强化学习中,环境模型是对环境的动力学建模,能够对智能体执行的动作做出反应,对未来状态和奖励进行预测。把环境模型作为一种工具在强化学习中使用,其中一种主要的应用方式是利用环境模型生成模拟样本,进行策略规划。这一类使用环境模型进行策略规划的方法统称为基于模型的强化学习。虽然基于模型的强化学习能有效提高强化学习的样本效率,但是存在计算资源消耗大,对模型预测准确性要求高等问题。因此,研究付出更少代价,获得更高样本效率的环境模型应用方式对强化学习意义重大。为了实现这一目标,本文围绕使用环境模型在强化学习中有效提高样本效率展开研究,完成的主要研究工作如下:1.研究了环境模型作为数据增强的方法,应用于强化学习任务中。针对基于模型的方法存在计算资源消耗大,模型设计复杂等问题,本文提出了使用环境模型进行数据增强来改善强化学习样本效率的算法。该算法使用条件生成式的环境模型进行数据增强,获得和原样本语义相同的增强数据。然后在不扩充数据集的情况下,随机替换原有数据,通过这种随机交替使用原始数据和增强数据的方式,提升编码器的学习能力,使得后续任务性能得到改善。在Atari环境中进行实验验证,本文的数据增强算法在复杂的离散控制任务中获得了更好的性能。2.研究了环境模型作为表示学习的方法,应用于强化学习任务中。针对无模型的深度强化学习对于高维状态的表征能力不足,从而导致算法样本效率低的问题。本文提出了用环境模型和无模型方法结合的表示学习算法。该算法在无模型的强化学习中添加了环境模型的状态转移损失作为表示学习损失,增强深度强化学习的表征能力。同时对隐空间相邻状态的距离进行约束,以获得规则的特征表示。在Deep Mind Control环境中进行实验验证,本文提出的表示学习算法改进了强化学习在高维环境中的表征能力,提高了智能体的使用样本的效率。
暂无评论