版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202310033512.7
公 开 号:CN115994576A
代 理 人:上海邦德专利代理事务所(普通合伙)梁剑
代理机构:上海邦德专利代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20230421
公 开 日:20230110
专利主分类号:G06N3/092
关 键 词:环境状态信息 服务型 注意力机制 动作序列 教师数据 目标策略 强化学习 模仿 判别器 机器人 样本 学习 任务执行成功 机器人领域 对抗训练 目标模型 特征生成 网络模块 对抗 高效性 鲁棒性 浅层 场景 输出 引入 奖励 网络
摘 要:本发明公开了一种社交场景中人类注意力机制模仿学习方法,属于服务型机器人领域,具体包括:1)获取环境状态信息,再对服务型机器人进行预训练得到目标策略,将深度强化学习任务执行成功的示例作为原始教师数据;2)将环境状态信息输入到行动者网络模块中,生成动作序列,再将教师数据、动作序列和环境状态信息输入至判别器;3)将判别器的输出值作为奖励值指导模仿策略的学习;4)修改服务型机器人的目标策略函数;5)引入人类注意力机制模块,提取模仿学习网络中的浅层特征生成对抗样本;6)利用对抗样本对目标模型进行对抗训练,本发明相较于原始的深度强化学习,模拟学习的方法具有更高的鲁棒性、准确性及高效性。