咨询与建议

限定检索结果

文献类型

  • 3 篇 期刊文献
  • 1 篇 会议

馆藏范围

  • 4 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 3 篇 工学
    • 2 篇 控制科学与工程
    • 2 篇 计算机科学与技术...
    • 1 篇 电子科学与技术(可...
    • 1 篇 信息与通信工程
    • 1 篇 航空宇航科学与技...
    • 1 篇 软件工程
  • 2 篇 管理学
    • 2 篇 管理科学与工程(可...
    • 1 篇 工商管理
  • 1 篇 经济学
    • 1 篇 应用经济学
  • 1 篇 军事学
    • 1 篇 战术学

主题

  • 4 篇 部分可观测马氏决...
  • 2 篇 强化学习
  • 1 篇 回报基线
  • 1 篇 r学习
  • 1 篇 r(λ)学习
  • 1 篇 评估
  • 1 篇 策略梯度
  • 1 篇 决策质量
  • 1 篇 最优策略可达空间...
  • 1 篇 干扰资源优化
  • 1 篇 主动雷达制导导弹
  • 1 篇 贝叶斯统计方法

机构

  • 1 篇 国防科学技术大学
  • 1 篇 电子工程学院
  • 1 篇 92925部队
  • 1 篇 云南大学
  • 1 篇 空军工程大学

作者

  • 1 篇 林秀青
  • 1 篇 王学宁
  • 1 篇 贺汉根
  • 1 篇 周一鹏
  • 1 篇 张翔
  • 1 篇 王祥
  • 1 篇 吴华
  • 1 篇 徐昕
  • 1 篇 胡光华
  • 1 篇 宋海方
  • 1 篇 陈游
  • 1 篇 吴涛

语言

  • 4 篇 中文
检索条件"主题词=部分可观测马氏决策过程"
4 条 记 录,以下是1-10 订阅
排序:
基于POMDP的主动雷达制导弹干扰措施优化方法
收藏 引用
空军工程大学学报(自然科学版) 2018年 第5期19卷 90-96页
作者: 张翔 吴华 陈游 宋海方 周一鹏 空军工程大学航空工程学院 92925部队
以主动雷达弹对抗为背景,研究了单平台机载电子对抗资源的调度问题。为解决导弹导引头状态观测不确定性问题,引入部分可观尔科夫决策过程(POMDP)理论,分析了POMDP模型的要素,建立了针对主动雷达制导导弹的干扰资源优化POMDP模型,并... 详细信息
来源: 评论
POMDP在战场决策评估中的应用和仿真
收藏 引用
现代防御技术 2008年 第1期36卷 75-79页
作者: 王祥 林秀青 电子工程学院 安徽合肥230037
通过将贝叶斯统计方法和POMDP(部分可观测马氏决策过程)方法相结合,采用计算机模拟的方式,预测在给定条件下可能产生的各种作战决策的质量。为解决不确定条件下对决策质量的定量评估提供了一种比较可行的方法。
来源: 评论
策略梯度强化学习中的最优回报基线
收藏 引用
计算机学报 2005年 第6期28卷 1021-1026页
作者: 王学宁 徐昕 吴涛 贺汉根 国防科学技术大学自动化研究所 国防科学技术大学计算机学院网络技术与信息安全研究所长沙410073
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回... 详细信息
来源: 评论
部分可观测MDP强化学习
部分可观测MDP强化学习
收藏 引用
2001年中国智能自动化会议
作者: 胡光华 云南大学数学系
在学习单元对环境信息未知的序贯决策问题中,强化学习(RL)是一种被广泛用于建立环境模型以及求解最优控制策略的有效技术。许多RL的理论及实际应用均集中于其学习环境可被描述为一决策过程(MDP)的情形。然而,在一些实际问题中,环境... 详细信息
来源: 评论