智能决策一直是机器人的关键技术之一。当前机器人技术的应用正面临着从面向结构化的工厂环境和任务转换到面向如家庭室内、办公楼、马路、野外等复杂日常生活环境及多变任务的考验,对机器人的智能化程度提出了更高的要求。现有的智能算法开发模式依赖于研究人员对环境及机体的提前建模,对于新的环境和机体往往需要重新建模,因此不具有通用性,开发成本巨大,无法适应未来行业中对于智能的大量需求。本课题旨在以智能决策算法的通用性为目标,探索智能决策问题的一般化描述方法与解决方案。首先,基于强化学习中常用的POMDP过程建立智能决策问题的通用数学描述,并通过对其进行分析,将智能决策算法等价于信息的提取与利用。利用信息论对环境中信息的分布方式进行分析,最终基于世界模型概念得出解决智能决策问题的一般性框架,将世界模型按照提取的信息类型不同拆分为感知抽象和状态预测两个过程。并基于Mo Jo Co仿真平台,选取了5种典型的视觉控制任务作为本文的验证平台。其次,推导感知抽象过程与生成模型之间的关系,利用POMDP过程中的内部约束,将感知抽象过程转化为生成问题,并基于变分自编码器对感知抽象过程进行了实现。从理论角度对优化目标中的信息约束进行分析,使用流模型替换变分自编码器的先验分布,实现更好的静态信息提取。在2个典型任务上验证了方法的对环境静态信息的提取能力。再次,推导状态预测过程与生成模型之间的关系,利用POMDP过程中的内部约束,将状态预测过程转化为序列生成问题,并基于循环神经网络对状态预测过程进行了实现。根据置信状态变量的节点形式与轨迹优化方式的不同提出了RAR、RVAR、RVAE三种模型。在2个典型任务上证明了其对环境动态信息的提取与预测能力。最后,借鉴人类智能决策方式,提出了基于世界模型和演员-评论家框架的想象学习方法,利用学习到的世界模型来产生类人的、可解释的智能决策。并在全部5种典型仿真任务中对算法进行整体验证,实验证明算法的有效性,并且相比其他强化学习方法可极大地提升了样本利用率。探索了离线智能体训练方式,证明了框架中数据采集的反馈过程对于智能体的性能至关重要。
暂无评论