咨询与建议

限定检索结果

文献类型

  • 18 篇 学位论文
  • 11 篇 期刊文献

馆藏范围

  • 29 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 28 篇 工学
    • 19 篇 控制科学与工程
    • 16 篇 计算机科学与技术...
    • 16 篇 软件工程
    • 9 篇 机械工程
    • 8 篇 仪器科学与技术
    • 1 篇 动力工程及工程热...
    • 1 篇 电气工程
    • 1 篇 电子科学与技术(可...
    • 1 篇 信息与通信工程
    • 1 篇 建筑学
    • 1 篇 交通运输工程
    • 1 篇 航空宇航科学与技...
    • 1 篇 网络空间安全
  • 16 篇 管理学
    • 16 篇 管理科学与工程(可...
  • 3 篇 理学
    • 2 篇 系统科学
    • 1 篇 数学
  • 1 篇 教育学
    • 1 篇 体育学

主题

  • 29 篇 确定性策略梯度
  • 16 篇 深度强化学习
  • 12 篇 强化学习
  • 4 篇 近端策略优化
  • 2 篇 机械臂
  • 2 篇 会话迁移
  • 2 篇 流媒体边缘云
  • 2 篇 路径规划
  • 2 篇 分类经验回放
  • 2 篇 值函数
  • 2 篇 深度学习
  • 2 篇 自适应调整
  • 1 篇 轨迹跟踪控制
  • 1 篇 ddpg算法
  • 1 篇 优先经验回放
  • 1 篇 建筑群柔性负荷
  • 1 篇 倒立摆控制
  • 1 篇 缓存污染攻击
  • 1 篇 强化学习控制
  • 1 篇 双记忆库

机构

  • 6 篇 哈尔滨工业大学
  • 2 篇 中国矿业大学
  • 2 篇 苏州大学
  • 2 篇 中国科学技术大学
  • 1 篇 四川托普信息技术...
  • 1 篇 西安邮电大学
  • 1 篇 湖北省电力规划设...
  • 1 篇 浙江省白马湖实验...
  • 1 篇 哈尔滨理工大学
  • 1 篇 同济大学
  • 1 篇 山东科技大学
  • 1 篇 西南交通大学
  • 1 篇 吉林大学
  • 1 篇 河海大学
  • 1 篇 电子科技大学
  • 1 篇 火箭军工程大学
  • 1 篇 东华大学
  • 1 篇 浙江大学
  • 1 篇 南京理工大学
  • 1 篇 济南大学

作者

  • 2 篇 徐西建
  • 1 篇 张涵
  • 1 篇 wang zilei
  • 1 篇 安冰清
  • 1 篇 yang qiang
  • 1 篇 徐磊
  • 1 篇 jiang yang
  • 1 篇 zhang pengpeng
  • 1 篇 shi hai-bo
  • 1 篇 杨洋
  • 1 篇 wu chengdong
  • 1 篇 乔增媛
  • 1 篇 张鹏鹏
  • 1 篇 曾铁文
  • 1 篇 xu wenping
  • 1 篇 纪金豹
  • 1 篇 徐文平
  • 1 篇 孙维超
  • 1 篇 wei changyun
  • 1 篇 吴阳

语言

  • 29 篇 中文
检索条件"主题词=确定性策略梯度"
29 条 记 录,以下是1-10 订阅
排序:
基于组合网络优化的延迟深度确定性策略梯度
收藏 引用
控制与决策 2025年 第3期40卷 1015-1023页
作者: 程玉虎 安冰清 孔毅 中国矿业大学信息与控制工程学院 江苏徐州221116
值函数估计偏差修正已成为深度强化学习领域的一个重要研究方向.现有大多数研究工作均聚焦于如何缓解高估偏差,却忽略了缓解高估偏差过程中引入的低估偏差问题.为此,通过在Actor-Critic框架中灵活设置多个Actor和Critic网络来缓解值函... 详细信息
来源: 评论
倒立摆模糊确定性策略梯度控制方法研究
收藏 引用
导航定位与授时 2025年 第1期 38-49页
作者: 李霖翔 刘开南 班晓军 冯志超 哈尔滨工业大学控制理论与制导技术研究中心 火箭军工程大学导弹工程学院
倒立摆系统作为一类典型的非最小相位系统,具有显著的非线性和不稳定性特点,使其控制问题具有一定挑战性。针对传统基于深度强化学习的倒立摆控制方法中存在的神经网络可解释性不足、状态量难以收敛到期望值的问题,提出了一种基于确... 详细信息
来源: 评论
基于熵正则化和定期更新的深度确定性策略梯度
基于熵正则化和定期更新的深度确定性策略梯度
收藏 引用
作者: 韩帅 吉林大学
学位级别:硕士
确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法是一种被广泛应用的强化学习算法。该方法虽然能在一定程度上解决连续动作域中的高维序贯决策问题,但其表现往往不稳定,在解决实际问题时效率低下。确定性策略梯度算法的... 详细信息
来源: 评论
基于连续控制任务的确定性策略梯度算法研究
基于连续控制任务的确定性策略梯度算法研究
收藏 引用
作者: 王振宇 哈尔滨理工大学
学位级别:硕士
无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。强化学习虽然已经在一系列具有挑战性的决策和控制任务上得到了长足的发展,但是连续控制任务下的深度强... 详细信息
来源: 评论
基于确定性策略梯度深度强化学习的机器人轨迹规划研究
基于确定性策略梯度深度强化学习的机器人轨迹规划研究
收藏 引用
作者: 应丰糠 东华大学
学位级别:硕士
传统的机器人运动控制依赖于针对具体对象的定制化逆运动学求解和轨迹规划,该过程需要人力的高度参与且缺乏通用性。尤其是当面向带有冗余自由度的机器人时,该过程异常复杂。近年来,深度强化学习在图像处理、语义理解和语音识别等多个... 详细信息
来源: 评论
渐进式深度确定性策略梯度算法的改进与研究
渐进式深度确定性策略梯度算法的改进与研究
收藏 引用
作者: 吴光军 苏州大学
学位级别:硕士
近些年来,将深度学习与强化学习相结合的深度强化学习在人工智能领域取得了令人瞩目的成就。深度强化学习方法利用深度神经网络强大的表征能力的同时,也使用了强化学习算法的自主决策能力,在多个学习领域中都展现出较强的通用性并取得... 详细信息
来源: 评论
跨传感器异步迁移学习的室内单目无人机避障
收藏 引用
宇航学报 2020年 第6期41卷 811-819页
作者: 李湛 薛喜地 杨学博 孙维超 于兴虎 高会军 哈尔滨工业大学智能控制与系统研究所 哈尔滨工业大学宁波智能装备研究院 哈尔滨工业大学机器人技术与系统国家重点实验室
针对强化学习策略由仿真环境向实际迁移困难的问题,以提高无人机采用无深度信息单目视觉时的行人规避能力为目标,提出一种基于异步深度神经网络结构的跨传感器迁移学习方法。首先,在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过基... 详细信息
来源: 评论
基于TS-TD3的动态环境端到端无地图导航方法
收藏 引用
机器人 2023年 第6期45卷 655-669页
作者: 姜杨 曾铁文 万东东 吴成东 东北大学机器人科学与工程学院 辽宁沈阳110169
针对基于地图的移动机器人导航框架部署在动态复杂环境时出现的问题,提出一种基于时序-双延迟深度确定性策略梯度(TS-TD3)的无地图导航方法。首先,将动态场景(具有环境部分可观测性)的导航任务定义为部分可观测马尔可夫决策过程(POMDP)... 详细信息
来源: 评论
旋翼无人机在移动平台降落的控制参数自学习调节方法
收藏 引用
智能系统学报 2022年 第5期17卷 931-940页
作者: 张鹏鹏 魏长赟 张恺睿 欧阳勇平 河海大学机电工程学院 江苏常州213022
无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将无人机迅速稳定地降落至移动平台上是一... 详细信息
来源: 评论
基于深度强化学习的流媒体边缘云会话调度策略
收藏 引用
计算机工程 2019年 第5期45卷 237-242,248页
作者: 徐西建 王子磊 奚宏生 中国科学技术大学自动化系 合肥230027
在流媒体边缘云资源调度中,传统启发式方法或规划方法多数存在自适应性不足、时间复杂度高等问题。基于迁移代价、负载均衡等约束,提出一种流媒体边缘云会话调度策略。以流媒体边缘云系统的状态信息作为属性特征,结合深度学习与确定性... 详细信息
来源: 评论