咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种社交场景中人类注意力机制模仿学习方法 收藏
一种社交场景中人类注意力机制模仿学习方法

一种社交场景中人类注意力机制模仿学习方法

专利申请号:CN202310033512.7

公 开 号:CN115994576A

发 明 人:何斌 缪奇航 陆萍 周艳敏 蒋烁 朱忠攀 李鑫 

代 理 人:上海邦德专利代理事务所(普通合伙)梁剑

代理机构:上海邦德专利代理事务所(普通合伙)

专利类型:发明专利

申 请 日:20230421

公 开 日:20230110

专利主分类号:G06N3/092

关 键 词:环境状态信息 服务型 注意力机制 动作序列 教师数据 目标策略 强化学习 模仿 判别器 机器人 样本 学习 任务执行成功 机器人领域 对抗训练 目标模型 特征生成 网络模块 对抗 高效性 鲁棒性 浅层 场景 输出 引入 奖励 网络 

摘      要:本发明公开了一种社交场景中人类注意力机制模仿学习方法,属于服务型机器人领域,具体包括:1)获取环境状态信息,再对服务型机器人进行预训练得到目标策略,将深度强化学习任务执行成功的示例作为原始教师数据;2)将环境状态信息输入到行动者网络模块中,生成动作序列,再将教师数据、动作序列和环境状态信息输入至判别器;3)将判别器的输出值作为奖励值指导模仿策略的学习;4)修改服务型机器人的目标策略函数;5)引入人类注意力机制模块,提取模仿学习网络中的浅层特征生成对抗样本;6)利用对抗样本对目标模型进行对抗训练,本发明相较于原始的深度强化学习,模拟学习的方法具有更高的鲁棒性、准确性及高效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分