咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >阶段性目标导向强化学习中状态表征与技能发现方法研究 收藏
阶段性目标导向强化学习中状态表征与技能发现方法研究

阶段性目标导向强化学习中状态表征与技能发现方法研究

作     者:余淼盈 

作者单位:南京邮电大学 

学位级别:硕士

导师姓名:陈蕾

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:目标导向强化学习 状态表征 技能发现 长短期记忆网络 分组对比学习 

摘      要:强化学习在游戏AI、机器人控制系统等决策任务中取得了令人瞩目的结果,但传统强化学习方法在结构组织复杂、空间规模大、奖励稀疏的任务中需要大量探索,样本利用率低,最优策略收敛速度慢。研究人员在强化学习中引入抉择、技能发现框架,通过学习可重复利用的抉择或技能,提高智能体的探索效率和样本利用率。虽然,基于抉择的强化学习方法已经可以解决结构简单的单目标导向强化学习问题,但由于策略网络的状态表征能力不足,难以解决多种目标组合变化的阶段性目标导向强化学习问题。此外,由于这类方法模型复杂,训练不稳定,许多学者投入到模型简单的基于技能的强化学习方法研究中。然而,基于技能的强化学习方法难以直接在阶段性目标导向强化学习任务中学习技能,在奖励稀疏的任务中学习技能时,需要额外的人工干预或演示数据,而人工干预需要丰富的知识背景支撑,演示数据又难以获得。针对这些问题,本文先后在基于抉择的方法中结合循环神经网络、基于技能的方法中结合对比学习,提出了两种模型,主要研究内容如下:(1)针对基于抉择的强化学习方法因策略网络的状态表征能力不足,导致难以解决多种目标组合变化的阶段性目标导向强化学习问题,提出了一种基于循环状态表征的抉择-批判家方法。在抉择-批判家方法中引入长短期记忆网络,对每一时刻的状态结合前一时刻的隐藏状态进行编码,使每个状态中融入之前的状态信息,增强策略网络对于任务全局信息的表征能力,更好地学习抉择策略网络,从而解决阶段性目标导向强化学习问题。最后,在网格世界任务环境上进行了实验,证实了该模型的良好性能。(2)针对基于技能的强化学习方法难以直接在阶段性目标导向强化学习任务中学习技能,导致在稀疏奖励条件下需要引入过多先验知识或人工干预的问题,提出了一种基于分组对比学习的序贯感知技能发现方法。首先,通过轨迹分组对比学习的方法学习技能嵌入表征,以减少人工干预。然后,分别在训练、测试阶段对分段轨迹进行序贯技能嵌入表征,并结合策略网络实现序贯技能策略的训练和高效利用,解决阶段性目标导向强化学习任务。最后,分别在网格世界、质点控制环境中进行了实验,验证了所提方法的有效性。(3)针对科研人员在进行强化学习算法研究时,希望能够方便地在前端界面进行交互,调整模型参数、保存模型、直观地查看算法最终效果的需求,结合本文的研究内容,设计实现了一个智能体运动控制演示系统。该系统为科研人员提供了一个外观简洁、操作简单的交互界面,方便进行多种算法的模型训练、演示。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分