检索结果-内蒙古大学图书馆

Engineering 2023年第2期21卷 75-91,M0004页

作者：吴京达黄志宇胡中旭吕辰 School of Mechanical and Aerospace Engineering Nanyang Technological UniversitySingapore 639798Singapore

由于机器学习智力和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练循环并利用人类智慧进一步提升机器学习算法变得至关重要。本... 详细信息

由于机器学习智力和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练循环并利用人类智慧进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人工指导(Hug)的深度强化学习(DRL)方法,用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制,人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。基于这种人机回环的指导机制,本研究开发一种基于修正策略和价值网络的改良的动作-评价架构(actor-critic architecture)。所提出的Hug-DRL的快速收敛允许实时的人工指导行为融合到智能体的训练循环中,进一步提高了DRL的效率和性能。本研究通过40名受试者的人机回环实验对开发的方法进行了验证,并与其他最先进的学习方法进行了比较。结果表明,该方法可以在人工指导下有效地提高DRL算法的训练效率和性能,且对参与者的专业知识或经验没有硬性要求。

关键词：深度强化学习强化学习算法智能体机器学习智能决策行为融合自动驾驶现实应用

来源：评论

学校读者我要写书评

暂无评论

强化学习算法中启发式回报函数的设计及其收敛性分析

引用

计算机科学 2005年第3期32卷 190-193页

作者：魏英姿赵明扬中国科学院沈阳自动化所机器人学重点实验室沈阳110016沈阳理工大学沈阳110168中国科学院研究生北京100039 中国科学院沈阳自动化所机器人学重点实验室沈阳110016

(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)

关键词：强化学习算法启发式回报函数收敛性马尔可夫决策过程机器学习人工智能

来源：评论

学校读者我要写书评

暂无评论

基于模拟退火-强化学习算法的船舶运动控制

引用

系统仿真学报 2006年第5期18卷 1278-1282页

作者：叶光郭晨大连海事大学自动化与电气工程学院大连116026

船舶运动控制与航行的安全性、可操纵性和经济性密切相关。本文基于模拟退火-强化学习算法提出了一种混合智能控制器,应用于船舶运动航向控制中。这种混合智能控制器发挥了各种智能算法的优势,能够克服风、浪、流等外界的干扰,船舶操纵... 详细信息

船舶运动控制与航行的安全性、可操纵性和经济性密切相关。本文基于模拟退火-强化学习算法提出了一种混合智能控制器,应用于船舶运动航向控制中。这种混合智能控制器发挥了各种智能算法的优势,能够克服风、浪、流等外界的干扰,船舶操纵自身的不确定性,以及干扰或仪器测量误差情况下,精确的训练数据不容易得到的缺陷。最终的仿真结果表明,当存在风浪干扰海况下,船舶航向的控制仍能取得令人满意的效果。

关键词：模拟退火算法强化学习算法船舶运动控制模糊神经网络

来源：评论

学校读者我要写书评

暂无评论

平均报酬模型的多步强化学习算法

引用

控制理论与应用 2000年第5期17卷 660-664页

作者：胡光华吴沧浦北京理工大学自动控制系北京100081

讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的... 详细信息

讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 .

关键词： R学习强化学习算法平均报酬模型机器学习

来源：评论

学校读者我要写书评

暂无评论

基于神经网络的强化学习算法研究

引用

计算机研究与发展 2002年第8期39卷 981-985页

作者：陆鑫高阳李宁陈世福南京大学计算机软件新技术国家重点实验室南京210093

BP神经网络在非线性控制系统中被广泛运用 ,但作为有导师监督的学习算法 ,要求批量提供输入输出对对神经网络训练 ,而在一些并不知道最优策略的系统中 ,这样的输入输出对事先并无法得到 ;另一方面 ,强化学习从实际系统学习经验来调整策... 详细信息

BP神经网络在非线性控制系统中被广泛运用 ,但作为有导师监督的学习算法 ,要求批量提供输入输出对对神经网络训练 ,而在一些并不知道最优策略的系统中 ,这样的输入输出对事先并无法得到 ;另一方面 ,强化学习从实际系统学习经验来调整策略 ,并且是一个逐渐逼近最优策略的过程 ,学习过程中并不需要导师的监督 .提出了将强化学习与 BP神经网络结合的学习算法—— RBP模型 .该模型的基本思想是通过强化学习控制策略 ,经过一定周期的学习后再用学到的知识训练神经网络 ,以使网络逐步收敛到最优状态 .

关键词：神经网络强化学习算法 RBP模型

来源：评论

学校读者我要写书评

暂无评论

多Agent系统的协作及强化学习算法研究

引用

模式识别与人工智能 2002年第4期15卷 453-457页

作者：郑淑丽韩江洪骆祥峰蒋建文合肥工业大学计算机学院合肥230009

研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,... 详细信息

研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解.

关键词：多Agent系统协作强化学习算法分布式人工智能专家系统

来源：评论

学校读者我要写书评

暂无评论

基于强化学习算法的静止同步补偿电压控制器

引用

电网技术 2004年第19期28卷 9-13页

作者：郭红霞吴捷刘永强王春茹华南理工大学电力学院广东省广州市510640

将强化学习算法应用于静止同步补偿(STATCOM)电压控制器,克服了常规 STATCOM 电压控制器对系统数学模型的依赖性,同时根据来自系统的强化学习信号,采用自适应启发评价算法更新其参数。在控制器中采用局部可测信息量,以确保其可实现性。... 详细信息

将强化学习算法应用于静止同步补偿(STATCOM)电压控制器,克服了常规 STATCOM 电压控制器对系统数学模型的依赖性,同时根据来自系统的强化学习信号,采用自适应启发评价算法更新其参数。在控制器中采用局部可测信息量,以确保其可实现性。仿真实验结果表明,基于强化学习算法的 STATCOM 电压控制器可以在紧急情况下对系统电压进行调节,从而在一定程度上确保了系统的安全稳定运行。

关键词：强化学习算法同步补偿系统自适应仿真实验电压控制器 STATCOM 安全稳定运行

来源：评论

学校读者我要写书评

暂无评论

强化学习算法应用于船舶运动的混合智能控制

引用

信息与控制 2002年第2期31卷 127-131页

作者：杨国勋郭晨贾欣乐大连海事大学航海动态仿真与控制实验室大连116026

将强化学习算法与混合智能技术相结合 ,应用于船舶运动控制 ,克服了通常混合智能算法的学习需要一定数量样本数据的缺陷 ,又能发挥各种智能算法的优势 .仿真结果表明在缺少样本数据情况下 ,该算法可以在一定程度上改进控制效果 .

关键词：强化学习算法船舶运动混合智能控制神经网络航向控制

来源：评论

学校读者我要写书评

暂无评论

强化学习算法及卫星信号智能跟踪机制的研究

强化学习算法及卫星信号智能跟踪机制的研究

引用

作者：徐杰中国科学院中国遥感卫星地面站

学位级别：硕士

卫星信号跟踪系统是卫星地面接收系统的重要组成部分，负责卫星的捕捉、跟踪等多项工作。良好的卫星跟踪机制不仅可以大大有助于提高卫星数据接收的质量，而且既可以提高卫星地面接收系统的自动化程度、实现无人值守工作模式，又可以使... 详细信息

卫星信号跟踪系统是卫星地面接收系统的重要组成部分，负责卫星的捕捉、跟踪等多项工作。良好的卫星跟踪机制不仅可以大大有助于提高卫星数据接收的质量，而且既可以提高卫星地面接收系统的自动化程度、实现无人值守工作模式，又可以使地面系统的结构设计简单从而降低整个系统的成本及运行维护费用和工作量。本文结合本站遥感卫星数据接收站卫星信号跟踪工作中所存在的一些不足，提出了新的系统构想，借助两自由度机械臂模型开展了有关智能跟踪机制的研究工作。\n 论文的研究思想是针对现有系统仍需人工作为辅助控制方式所带来的不确定性，采用智能控制算法，以强化学习思想为主体，通过分析比较构建新型智能控制框架及模型，并进行仿真实验检验其效果，以实现接收系统无人值守的目标，为地面站将来接收系统的发展设计提供良好的理论创新和技术支持。\n 在技术实现方面，通过对现有卫星跟踪技术的工程实现方法进行广泛而有深度的分析，根据卫星天线跟踪模型特点的分析建立两自由度机械臂作为算法的实验对象。在对信号强度与跟踪误差关系的分析基础上建立系统的评价信号发生器模型；根据机械臂的物理结构特点建立动作发生器单元；借助Actor-Critic结构的行为控制思想，BP神经网络的非线性拟合能力，以及REINFORCE算法的统计性能和TTD-Q等强化学习算法，实现了该智能控制系统。\n 课题的研究对地面站接收系统的改进和发展提出了建设性的意见，为今后的研究工作在理论创新和技术积累奠定了一定的基础。课题所实现的智能算法结构与领域内其它算法比较具有以下突出优势：在一定干扰信号范围内，系统能够稳定快速的收敛符合实时稳定的要求；系统的设计模型结构简单，不需要先验知识，通过在线自学习过程充分实现拟人特性，随着研究的进一步发展有可能取代人工成为主体自动跟踪或程序跟踪的理想补充方式；系统具备良好的抗噪能力，动态反应性能表现优越。\n 论文的工作是基于普通的PC机，Windows XP操作系统，使用Microsoft Visual C++6.0作为编译器，应用C++犏程语言完成算法模型的编码和实验数据的提取。借助Matlab平台实现系统实际运行过程的可视化。

关键词：卫星信号跟踪系统强化学习算法地面站接收系统

来源：评论

学校读者我要写书评

暂无评论

一种基于团队马尔可夫博弈的多agent协同强化学习算法

引用

复旦学报（自然科学版） 2004年第5期43卷 842-844页

作者：王长缨陈文伟姚莉国防科技大学管理科学与工程系信息与决策实验室长沙410073

研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法.协作团队中的每个agent通过观察协作相识者的历史行为,... 详细信息

研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法.协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略.实验对该算法进行了验证,结果表明该算法是有效的.

关键词：团队博弈模型马尔可夫协同协作最大化行为策略强化学习算法多agent系统智能系统

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：