咨询与建议

限定检索结果

文献类型

  • 6 篇 期刊文献
  • 2 篇 学位论文

馆藏范围

  • 8 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 8 篇 工学
    • 8 篇 控制科学与工程
    • 7 篇 计算机科学与技术...
    • 7 篇 软件工程
    • 1 篇 电子科学与技术(可...
    • 1 篇 信息与通信工程
    • 1 篇 航空宇航科学与技...
  • 7 篇 管理学
    • 7 篇 管理科学与工程(可...

主题

  • 8 篇 行动者评论家
  • 5 篇 连续空间
  • 4 篇 强化学习
  • 2 篇 函数逼近
  • 1 篇 贝叶斯推理
  • 1 篇 联合神经网络
  • 1 篇 注意力机制
  • 1 篇 深度强化学习
  • 1 篇 人工智能
  • 1 篇 双重注意力机制
  • 1 篇 异步优势行动者评...
  • 1 篇 策略梯度
  • 1 篇 高斯过程
  • 1 篇 增强学习
  • 1 篇 梯度下降
  • 1 篇 雷达
  • 1 篇 故障诊断
  • 1 篇 神经网络
  • 1 篇 非线性
  • 1 篇 异步深度强化学习

机构

  • 6 篇 苏州大学
  • 4 篇 吉林大学
  • 3 篇 软件新技术与产业...
  • 1 篇 中国船舶工业系统...
  • 1 篇 中国民用航空飞行...
  • 1 篇 北京航空航天大学
  • 1 篇 常熟理工学院

作者

  • 4 篇 刘全
  • 3 篇 章鹏
  • 2 篇 翟建伟
  • 2 篇 钟珊
  • 2 篇 伏玉琛
  • 2 篇 凌兴宏
  • 2 篇 钱炜晟
  • 2 篇 liu quan
  • 1 篇 杨金鸿
  • 1 篇 fu yuchen
  • 1 篇 谭斌
  • 1 篇 xiong zhang
  • 1 篇 皇甫立
  • 1 篇 李杰
  • 1 篇 ling xing-hong
  • 1 篇 huangfu li
  • 1 篇 陈仕超
  • 1 篇 姜玉斌
  • 1 篇 ling xinghong
  • 1 篇 chen guixing

语言

  • 8 篇 中文
检索条件"主题词=行动者评论家"
8 条 记 录,以下是1-10 订阅
排序:
基于双重注意力机制的异步优势行动者评论家算法
收藏 引用
计算机学报 2020年 第1期43卷 93-106页
作者: 凌兴宏 李杰 朱斐 刘全 伏玉琛 苏州大学计算机科学与技术学院 江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室 江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室 长春130012 软件新技术与产业化协同创新中心 南京210000 常熟理工学院计算机科学与工程学院 江苏常熟215500
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 详细信息
来源: 评论
连续空间中的一种动作加权行动者评论家算法
收藏 引用
计算机学报 2017年 第6期40卷 1252-1264页
作者: 刘全 章鹏 钟珊 钱炜晟 翟建伟 苏州大学计算机科学与技术学院 江苏苏州215006 软件新技术与产业化协同创新中心 南京210000 吉林大学符号计算与知识工程教育部重点实验室 长春130012
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出... 详细信息
来源: 评论
增量式双自然策略梯度的行动者评论家算法
收藏 引用
通信学报 2017年 第4期38卷 166-177页
作者: 章鹏 刘全 钟珊 翟建伟 钱炜晟 苏州大学计算机科学与技术学院 江苏苏州215006 软件新技术与产业化协同创新中心 江苏南京210000 吉林大学符号计算与知识工程教育部重点实验室 吉林长春130012
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通... 详细信息
来源: 评论
一种基于高斯过程的行动者评论家算法
收藏 引用
计算机应用研究 2016年 第6期33卷 1670-1675页
作者: 陈仕超 凌兴宏 刘全 伏玉琛 陈桂兴 苏州大学计算机科学与技术学院 江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室 长春130012
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在criti... 详细信息
来源: 评论
基于行动者评论家的探索动作修正算法研究
基于行动者评论家的探索动作修正算法研究
收藏 引用
作者: 姜玉斌 苏州大学
学位级别:硕士
深度强化学习通过深度学习提取高维数据特征,结合强化学习算法,在无需预处理输入数据的情况下可以处理复杂的大规模连续状态空间任务。行动者评论家算法作为深度强化学习中的核心算法之一,在行动者行动作选择时通常会加入探索动作以... 详细信息
来源: 评论
基于连续动作空间的行动者评论家方法研究
基于连续动作空间的行动者评论家方法研究
收藏 引用
作者: 章鹏 苏州大学
学位级别:硕士
强化学习方法是以最大化数字信号为目标来学习到一种映射关系,是机器学习的一个重要分支。连续空间下的最优控制问题一直是强化学习的一个重要研究方向,然而“维数灾难”问题一直阻碍着连续空间强化学习的发展。针对当前连续空间下强化... 详细信息
来源: 评论
一种基于联合神经网络的连续空间行动者评论家学习方法
智能安全
收藏 引用
智能安全 2022年 第2期1卷 19-25页
作者: 杨金鸿 谭斌 皇甫立 熊璋 中国船舶工业系统工程研究院 北京100094 北京航空航天大学计算机科学与技术学院 北京100192
在复杂的连续空间应用场景中,经典的离散空间强化学习方法已难以满足实际需要,而已有的连续空间强化学习方法主要采用线性拟合方法逼近状态值函数和动作选择函数,存在精度不高的问题。提出一种基于联合神经网络非线性行动者评论家方法(a... 详细信息
来源: 评论
一种基于增强学习神经网络的雷达故障诊断方法
收藏 引用
现代雷达 2017年 第12期39卷 15-19页
作者: 庄夏 中国民用航空飞行学院科研处 四川广汉618307
为了提高现有雷达故障的诊断效率和诊断精度,提出了一种基于增强学习神经网络的雷达故障诊断模型。首先,对基于神经网络的故障诊断模进行了构建和分析;然后,给出了采用马拉特(Mallat)塔式小波变换算法对故障输入数据进行特征提取的方法... 详细信息
来源: 评论