咨询与建议

限定检索结果

文献类型

  • 1 篇 期刊文献

馆藏范围

  • 1 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 1 篇 工学
    • 1 篇 控制科学与工程
    • 1 篇 计算机科学与技术...
    • 1 篇 软件工程
  • 1 篇 管理学
    • 1 篇 管理科学与工程(可...

主题

  • 1 篇 正则化
  • 1 篇 行动器评判器算法
  • 1 篇 最优策略
  • 1 篇 模型学习
  • 1 篇 经验回放
  • 1 篇 自然梯度

机构

  • 1 篇 苏州科技大学
  • 1 篇 软件新技术与产业...
  • 1 篇 吉林大学
  • 1 篇 苏州大学
  • 1 篇 常熟理工学院

作者

  • 1 篇 钟珊
  • 1 篇 傅启明
  • 1 篇 龚声蓉
  • 1 篇 董虎胜
  • 1 篇 刘全

语言

  • 1 篇 中文
检索条件"主题词=行动器评判器算法"
1 条 记 录,以下是1-10 订阅
排序:
一种采用模型学习和经验回放加速的正则化自然行动器评判器算法
收藏 引用
计算机学报 2019年 第3期42卷 532-553页
作者: 钟珊 刘全 傅启明 龚声蓉 董虎胜 苏州大学计算机科学与技术学院 江苏苏州215006 常熟理工学院计算机科学与工程学院 江苏常熟215500 吉林大学符号计算与知识工程教育部重点实验室 长春130012 苏州科技大学江苏省建筑智慧节能重点实验室 江苏苏州215006 软件新技术与产业化协同创新中心 南京210000 苏州科技大学电子与信息工程学院 江苏苏州215006
行动评判(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized... 详细信息
来源: 评论