咨询与建议

限定检索结果

文献类型

  • 1 篇 期刊文献

馆藏范围

  • 1 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 1 篇 工学
    • 1 篇 控制科学与工程
    • 1 篇 计算机科学与技术...
    • 1 篇 软件工程
  • 1 篇 管理学
    • 1 篇 管理科学与工程(可...

主题

  • 1 篇 确定性行动者评论...
  • 1 篇 强化学习
  • 1 篇 深度强化学习
  • 1 篇 多行动者
  • 1 篇 经验指导
  • 1 篇 专家指导

机构

  • 1 篇 江苏省计算机信息...
  • 1 篇 软件新技术与产业...
  • 1 篇 符号计算与知识工...
  • 1 篇 苏州大学

作者

  • 1 篇 何斌
  • 1 篇 闫岩
  • 1 篇 zhang linlin
  • 1 篇 陈红名
  • 1 篇 姜玉斌
  • 1 篇 jiang yubin
  • 1 篇 张琳琳
  • 1 篇 he bin
  • 1 篇 liu quan
  • 1 篇 刘全
  • 1 篇 yan yan
  • 1 篇 chen hongming

语言

  • 1 篇 中文
检索条件"主题词=确定性行动者评论家"
1 条 记 录,以下是1-10 订阅
排序:
基于经验指导的深度确定性行动者-评论家算法
收藏 引用
计算机研究与发展 2019年 第8期56卷 1708-1720页
作者: 陈红名 刘全 闫岩 何斌 姜玉斌 张琳琳 苏州大学计算机科学与技术学院 江苏苏州215006 江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州215006 符号计算与知识工程教育部重点实验室(吉林大学) 长春130012 软件新技术与产业化协同创新中心 南京210000
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,... 详细信息
来源: 评论