检索结果-内蒙古大学图书馆

兵工学报 2015年第4期36卷 731-743页

作者：万开方高晓光李波梅军峰西北工业大学电子信息学院陕西西安710072

针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 详细信息

针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。

关键词：控制科学与技术传感器技术反隐身多传感器组网部分可观察马尔可夫决策过程信念状态任务规划

来源：评论

学校读者我要写书评

暂无评论

基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法

引用

电子与信息学报 2013年第12期35卷 2901-2907页

作者：仵博陈鑫郑红燕冯延蓬深圳职业技术学院教育技术与信息中心深圳518055 中南大学信息科学与工程学院长沙410083 先进控制与智能自动化湖南省工程实验室长沙410083

针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 详细信息

针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。

关键词：信息处理部分可观察马尔可夫决策过程信念状态空间非负矩阵分解值直接压缩维数灾

来源：评论

学校读者我要写书评

暂无评论

基于部分可观察马尔可夫决策过程的引导式学习模型研究

基于部分可观察马尔可夫决策过程的引导式学习模型研究

引用

作者：罗俊南京邮电大学

学位级别：硕士

随着知识技能日新月异,让训练对象尽可能快的通过学习掌握技能和知识,以满足不同任务的需求,已经成为非常重要的研究课题。因为不同个体的学习能力有差异,而且会存在优先级高的对象个体,如何进行引导式自动学习,以提高学习的效率和质量... 详细信息

随着知识技能日新月异,让训练对象尽可能快的通过学习掌握技能和知识,以满足不同任务的需求,已经成为非常重要的研究课题。因为不同个体的学习能力有差异,而且会存在优先级高的对象个体,如何进行引导式自动学习,以提高学习的效率和质量,减少不必要的时间和物力消耗,已成为学术界和工业界共同关心的问题。为了解决传统式引导式学习方法的弊端,优化学习资源分配,本文在基于均匀采样学习算法和基于贪婪策略学习算法的基础上,提出了基于部分可观察马尔可夫决策过程的引导式学习,利用指数加权移动平均方法,通过比较不同用户的累加学习效果,动态分配学习资源,通过设置学习停止条件,进一步优化学习资源分配,在保证高优先级用户学习效果的同时,提高包括高优先级用户在内的整体学习效率。最后,使用LSTM神经网络十进制不同位数的加法模拟不同学习能力的用户,通过大量的实验验证了我们提出的基于部分可观察马尔可夫决策过程的引导式学习的有效性,并在学习效率和学习效果两方面均优于基于均匀采样和基于贪婪策略学习算法。

关键词：强化学习部分可观察马尔可夫决策过程优先级引导式学习

来源：评论

学校读者我要写书评

暂无评论

一种基于部分可观察马尔可夫决策过程的股票交易策略

引用

东莞理工学院学报 2023年第1期30卷 43-50页

作者：黄福威张宁东莞理工学院计算机科学与技术学院广东东莞523808

近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,... 详细信息

近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,并采用长短期记忆网络和优势演员评论家算法来构建股票交易策略。通过在道琼斯工业平均指数成份股数据集上进行实验,实验结果表明本文所设计的股票交易策略构建方法可以挖掘隐藏在历史数据中的有效信息,获得稳定且有效的交易策略。

关键词：股票交易部分可观察马尔可夫决策过程优势演员评论家算法

来源：评论

学校读者我要写书评

暂无评论

部分可观察Markov决策过程中基于内部状态的强化学习研究

部分可观察Markov决策过程中基于内部状态的强化学习研究

引用

作者：方长胜合肥工业大学

学位级别：硕士

强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。尽管强化学习技术已有很多研究成果和应用范例,... 详细信息

强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。尽管强化学习技术已有很多研究成果和应用范例,但是还有许多没有解决的问题,不完全感知问题就是其中一个难点问题。目前对于这类问题一般采用POMDP模型进行求解。但是,由于求解POMDP模型的计算复杂度高,所以只能处理规模较小简单的问题。本文分别在模型优化和算法改进等方面做了一些研究,论文的主要工作如下: 首先,在POMDP模型中引入Agent的内部状态,利用学习的历史经验值,提出一种基于内部状态的POMDP强化学习改进模型。通过对实例问题策略的描述,实现了降低策略复杂度和学习随机性的目的。其次,在模型改进的基础上,进一步引入资格迹(the eligibility trace)的思想,并提出了相应的基于策略梯度的近似强化学习算法:PGI-POMDP算法,降低了近似计算的复杂度,提高了Agent学习的效率。最后,把上述思想应用到多Agent系统中,提出了多Agent系统下的策略梯度算法:MIS-GPOMDP算法,实验结果表明学习效率和时间空间开销都有改进。

关键词：部分可观察马尔可夫决策过程强化学习内部状态多Agent系统策略梯度

来源：评论

学校读者我要写书评

暂无评论

不确定性环境下的自动驾驶汽车行为决策方法

引用

汽车工程 2024年第2期46卷 211-221,259页

作者：付新科蔡英凤陈龙王海刘擎超江苏大学汽车工程研究院镇江212013 江苏大学汽车与交通工程学院镇江212013

在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境... 详细信息

在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境下的自动驾驶汽车行为决策方法,为消除不确定性的影响,将行为决策过程转化为部分可观察马尔可夫决策过程(POMDP)。同时为解决POMDP模型计算复杂度过高的问题,首次将复杂网络理论应用于自动驾驶汽车周围微观的驾驶环境,对自动驾驶汽车驾驶环境进行动态建模,实现了车辆节点间交互关系的有效刻画,并对重要车辆节点进行科学筛选,用于指导自车的行为决策,实现对关键车辆节点的精准识别和决策空间的剪枝。在仿真环境中验证了所提方法的有效性,实验结果表明,与现有最先进的行为决策方法相比,所提出的方法拥有更高的计算效率,且拥有更好的性能和灵活性。

关键词：自动驾驶汽车行为决策部分可观察马尔可夫决策过程复杂网络

来源：评论

学校读者我要写书评

暂无评论

基于点的POMDPs在线值迭代算法

引用

软件学报 2013年第1期24卷 25-36页

作者：仵博吴敏佘锦华中南大学信息科学与工程学院湖南长沙410083 先进控制与智能自动化湖南省工程实验室湖南长沙410083 深圳职业技术学院教育技术与信息中心广东深圳518055 School of Computer Science Tokyo University of Technology

部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDPs)是动态不确定环境下序贯决策的理想模型,但是现有离线算法陷入信念状态"维数灾"和"历史灾"问题,而现有在线算法无法同时... 详细信息

部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDPs)是动态不确定环境下序贯决策的理想模型,但是现有离线算法陷入信念状态"维数灾"和"历史灾"问题,而现有在线算法无法同时满足低误差与高实时性的要求,造成理想的POMDPs模型无法在实际工程中得到应用.对此,提出一种基于点的POMDPs在线值迭代算法(point-based online value iteration,简称PBOVI).该算法在给定的可达信念状态点上进行更新操作,避免对整个信念状态空间单纯体进行求解,加速问题求解;采用分支界限裁剪方法对信念状态与或树进行在线裁剪;提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算.实验结果表明,该算法具有较低误差率、较快收敛性,满足系统实时性的要求.

关键词：部分可观察马尔可夫决策过程信念状态基于点的算法在线算法与或树

来源：评论

学校读者我要写书评

暂无评论

基于Monte Carlo粒子滤波的POMDPs在线算法

引用

控制与决策 2013年第6期28卷 925-929页

作者：仵博吴敏中南大学信息科学与工程学院长沙410083 中南大学先进控制与智能自动化湖南省工程实验室长沙410083 深圳职业技术学院教育技术与信息中心广东深圳518055

针对部分可观察马尔可夫决策过程(POMDPs)的信念状态空间是一个双指数规模问题,提出一种基于Monte Carlo粒子滤波的POMDPs在线算法.首先,分别采用粒子滤波和粒子映射更新和扩展信念状态,建立可达信念状态与或树;然后,采用分支界限裁剪... 详细信息

针对部分可观察马尔可夫决策过程(POMDPs)的信念状态空间是一个双指数规模问题,提出一种基于Monte Carlo粒子滤波的POMDPs在线算法.首先,分别采用粒子滤波和粒子映射更新和扩展信念状态,建立可达信念状态与或树;然后,采用分支界限裁剪方法对信念状态与或树进行裁剪,降低求解规模.实验结果表明,所提出算法具有较低的误差率和较快的收敛性,能够满足系统实时性的要求.

关键词：部分可观察马尔可夫决策过程信念状态 Monte Carlo 粒子滤波在线算法

来源：评论

学校读者我要写书评

暂无评论

不确定性环境下基于进化算法的强化学习

引用

电子学报 2006年第7期34卷 1356-1360页

作者：刘海涛洪炳熔朴松昊王雪梅哈尔滨工业大学计算机科学与技术学院黑龙江哈尔滨150001 哈尔滨理工大学自动化学院黑龙江哈尔滨150080

不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐... 详细信息

不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.

关键词：部分可观察马尔可夫决策过程 Q学习 Memetic算法信度状态隐状态

来源：评论

学校读者我要写书评

暂无评论

基于动态跳频的频谱接入

引用

计算机应用研究 2010年第12期27卷 4684-4685,4689页

作者：陶乃顺鲜永菊徐昌彪重庆大学通信工程学院重庆400044 重庆邮电大学移动通信重点实验室重庆400065

在认知网络中,为了克服频谱接入方案中系统吞吐量普遍偏低的缺点,运用动态跳频技术,提出一种可以使次用户顺利切换到其他信道同时增加系统吞吐量的频谱接入新方案,并利用部分可观察马尔可夫决策过程描述这一问题;最后进行了数值验证。

关键词：频谱接入频谱感知系统吞吐量动态跳频部分可观察马尔可夫决策过程

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：