检索结果-内蒙古大学图书馆

空军工程大学学报（自然科学版） 2018年第5期19卷 90-96页

作者：张翔吴华陈游宋海方周一鹏空军工程大学航空工程学院 92925部队

以主动雷达弹对抗为背景,研究了单平台机载电子对抗资源的调度问题。为解决导弹导引头状态观测不确定性问题,引入部分可观测马尔科夫决策过程(POMDP)理论,分析了POMDP模型的要素,建立了针对主动雷达制导导弹的干扰资源优化POMDP模型,并... 详细信息

以主动雷达弹对抗为背景,研究了单平台机载电子对抗资源的调度问题。为解决导弹导引头状态观测不确定性问题,引入部分可观测马尔科夫决策过程(POMDP)理论,分析了POMDP模型的要素,建立了针对主动雷达制导导弹的干扰资源优化POMDP模型,并利用最优策略可达空间的连续近似法(SARSOP)进行求解。将电子支援措施(ESM)的观测值输出与电子干扰措施(ECM)的优化策略相结合,提出了一种基于POMDP的电子对抗资源实时调度优化算法。仿真结果表明,该方法能够实现目标状态不确定情况下的干扰资源有效调度,相比现有的调度策略,可以使导引头更多维持在搜索状态,更少停留在稳定跟踪状态。

关键词：主动雷达制导导弹干扰资源优化部分可观测马氏决策过程最优策略可达空间的连续近似法

来源：评论

学校读者我要写书评

暂无评论

POMDP在战场决策评估中的应用和仿真

引用

现代防御技术 2008年第1期36卷 75-79页

作者：王祥林秀青电子工程学院安徽合肥230037

通过将贝叶斯统计方法和POMDP(部分可观测马氏决策过程)方法相结合,采用计算机模拟的方式,预测在给定条件下可能产生的各种作战决策的质量。为解决不确定条件下对决策质量的定量评估提供了一种比较可行的方法。

关键词：部分可观测马氏决策过程贝叶斯统计方法决策质量评估

来源：评论

学校读者我要写书评

暂无评论

策略梯度强化学习中的最优回报基线

引用

计算机学报 2005年第6期28卷 1021-1026页

作者：王学宁徐昕吴涛贺汉根国防科学技术大学自动化研究所国防科学技术大学计算机学院网络技术与信息安全研究所长沙410073

尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回... 详细信息

尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛.

关键词：强化学习策略梯度部分可观测马氏决策过程回报基线

来源：评论

学校读者我要写书评

暂无评论

部分可观测MDP强化学习

部分可观测MDP强化学习

引用

2001年中国智能自动化会议

作者：胡光华云南大学数学系

在学习单元对环境信息未知的序贯决策问题中,强化学习(RL)是一种被广泛用于建立环境模型以及求解最优控制策略的有效技术。许多RL的理论及实际应用均集中于其学习环境可被描述为一马氏决策过程(MDP)的情形。然而,在一些实际问题中,环境... 详细信息

在学习单元对环境信息未知的序贯决策问题中,强化学习(RL)是一种被广泛用于建立环境模型以及求解最优控制策略的有效技术。许多RL的理论及实际应用均集中于其学习环境可被描述为一马氏决策过程(MDP)的情形。然而,在一些实际问题中,环境却是非马氏的,即对学习单元而言,它所能获得的环境状态的信息是不完全的。本文给出了一种新的算法:R(λ)学习,以求解这类非马氏环境的决策问题。环境本身是马氏的,但是学习单元却不能感知全部的状态信息,此时我们也称其为部分可观测马氏决策过程(POMDP)。

关键词：强化学习部分可观测马氏决策过程 R学习 R(λ)学习

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：