检索结果-内蒙古大学图书馆

计算机科学 2021年第3期48卷 180-187页

作者：秦智慧李宁刘晓彤刘秀磊佟强刘旭红北京材料基因工程高精尖创新中心(北京信息科技大学) 北京100101 北京信息科技大学数据与科学情报分析实验室北京100101 中国科学院煤炭化学研究所煤转化国家重点实验室太原030001 中科合成油技术有限公司国家能源煤基液体燃料研发中心北京101400 中国科学院大学北京100049

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)... 详细信息

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。

关键词：人工智能强化学习深度强化学习无模型强化学习马尔可夫决策过程

来源：评论

学校读者我要写书评

暂无评论

基于无模型强化学习的电动汽车有序充电实时调控方法

基于无模型强化学习的电动汽车有序充电实时调控方法

引用

作者：张亦弛北京邮电大学

学位级别：硕士

近年来,为了降低化石能源的消耗和保护生态环境,我国大力推动电动汽车的发展,电动汽车的数量得以飞速增长。然而,大量电动汽车无序接入电网将使得电网出现新的负荷峰值,进而导致电能质量下降、运行成本增加和变压器过载等问题。为了缓... 详细信息

近年来,为了降低化石能源的消耗和保护生态环境,我国大力推动电动汽车的发展,电动汽车的数量得以飞速增长。然而,大量电动汽车无序接入电网将使得电网出现新的负荷峰值,进而导致电能质量下降、运行成本增加和变压器过载等问题。为了缓解这些问题,有序充电算法被应用于协调电动汽车充电行为。但是现有的基于规则的有序充电方法仅能在特定环境下使用,并且算法的效果不稳定,更适应于静态的环境。而基于目标优化的有序充电方法假设所有随机信息可以预知,实际场景很难满足该假设。与之不同的是,无模型强化学习算法可以在没有先验知识的情况下,利用其与环境反复交互获得的经验逐步学习最优控制决策,更加适应充满随机性的电动汽车有序充电调控。因此,本文研究了在电动汽车充电行为完全未知的情况下,基于无模型强化学习的电动汽车有序充电调控方法。本文的主要工作如下:(1)本文实现了有序充电问题的马尔科夫决策化,明确了有序充电马尔科夫决策过程中的要素的定义,包括状态、动作、奖励等。并基于北京市远大园社区的真实充电数据,采用混合高斯分布拟合了电动汽车的到达时间、充电需求量和非充电负荷的数据分布函数。此外,使用了蒙特卡洛采样法研究了无序充电对社区电网的影响,结果表明,在无序充电时,用电功率峰值从336.67千瓦提升至435.28千瓦,峰值提高了 29.29%,超出了社区变压器的安全界限,可能导致变压器的损坏。(2)针对充电功率连续控制场景,提出了自适应动作噪声深度确定性策略梯度算法。本文考虑到固定方差的探索噪声可能使得模型抛弃更优策略,探索无效策略,设计了自适应动作噪声模块,使得模型在不同的训练阶段下有着不同的动作探索空间。除此以外,考虑到电动汽车充电问题中面临的稀疏奖励问题,本文进一步将优先级经验重放缓冲区加入所提算法的结构中,提高了算法的学习能力与训练速度。最后,在基于真实数据构造的仿真环境中开展了实验。实验结果表明,相较于深度确定性策略调控算法,所提算法能够进一步降低社区总负荷的标准差0.74%,实现了更优的调控效果。(3)针对充电功率离散控制场景,本文提出了一种结合长短时记忆网络的两阶段竞争深度Q网络算法。首先,考虑到离散控制场景中动作空间维度过大的问题,本文重新设计了电动汽车充电问题的动作空间,提出了两阶段调控策略。接着,考虑到非充电负荷中的时序信息有益于强化学习智能体进行决策,本文设计了表征层以从非充电负荷序列中提取时序特征,并将特征输入至强化学习决策网络中,提升了模型的调控效果。最后,基于真实充电数据开展了仿真实验,实验结果表明,相对于启发式规则算法、目标优化算法以及竞争深度Q网络算法,所提算法分别能进一步降低负荷标准差3.43%、1.21%、1.33%。

关键词：智能电网有序充电无模型强化学习自适应动作噪声两阶段策略

来源：评论

学校读者我要写书评

暂无评论

强化学习及其在机器人任务规划中的进展与分析

引用

模式识别与人工智能 2023年第10期36卷 902-917页

作者：张晓明高士杰姚昌瑀褚誉彭硕安徽大学物质科学与信息技术研究院合肥230601

强化学习可以让机器人通过与环境的交互,学习最优的行动策略,是目前机器人领域关注的重要前沿方向之一.文中简述机器人任务规划问题的形式化建模,分析强化学习的主要方法,分别介绍无模型强化学习、基于模型的强化学习和分层强化学习的... 详细信息

强化学习可以让机器人通过与环境的交互,学习最优的行动策略,是目前机器人领域关注的重要前沿方向之一.文中简述机器人任务规划问题的形式化建模,分析强化学习的主要方法,分别介绍无模型强化学习、基于模型的强化学习和分层强化学习的研究进展,着重探讨基于强化学习的机器人任务规划的研究进展,并讨论各种强化学习及其应用情况.最后总结强化学习在机器人应用中面临的问题与挑战,展望未来的研究方向.

关键词：机器人任务规划强化学习无模型强化学习基于模型的强化学习分层强化学习

来源：评论

学校读者我要写书评

暂无评论

潜在空间中的策略搜索强化学习方法

引用

计算机科学与探索 2024年第4期18卷 1032-1046页

作者：赵婷婷王莹孙威陈亚瑞王嫄杨巨成天津科技大学人工智能学院天津300457

策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 详细信息

策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。

关键词：无模型强化学习策略模型状态表示动作表示连续动作空间策略搜索强化学习方法

来源：评论

学校读者我要写书评

暂无评论

基于可变保守程度离线强化学习的机器人运动控制方法

引用

控制工程 2024年

作者：王洋张震王迪任坤青岛大学自动化学院山东省工业控制技术重点实验室

为了解决以保守Q学习(Conservative Q-Learning， CQL)为代表的离线强化学习算法保守程度固定不变，导致学习到的策略过于保守的问题，文中提出了一种名为可变保守程度Q学习(Variable Conservativeness Q-Learning， VCQL)的离线强化学... 详细信息

为了解决以保守Q学习(Conservative Q-Learning， CQL)为代表的离线强化学习算法保守程度固定不变，导致学习到的策略过于保守的问题，文中提出了一种名为可变保守程度Q学习(Variable Conservativeness Q-Learning， VCQL)的离线强化学习算法。VCQL算法在CQL算法的基础上引入了对于状态动作对偏离数据集的程度衡量，并能够根据偏离程度调整策略的行为，使得算法的保守程度可变，从而能够进行适当的探索，提高了算法的泛化能力和灵活性。为验证VCQL算法在机器人运动控制上的有效性，采用深度数据驱动强化学习数据集对其进行训练，并在接触型多关节动力学的机器人运动控制任务上进行了测试。仿真实验结果表明，VCQL算法在机器人运动控制任务上表现出较对比算法更优异的性能。

关键词：强化学习离线强化学习无模型强化学习深度强化学习机器人运动控制

来源：评论

学校读者我要写书评

暂无评论

基于时序差分学习的充电站有序充电方法

引用

电力工程技术 2021年第1期40卷 181-187页

作者：江明许庆强季振亚国网江苏省电力有限公司江苏南京210024 南京师范大学电气与自动化工程学院江苏南京210046

电动汽车有序充电是智能用电领域的重要议题。传统的模型驱动方法需对充电行为建模,但受相关参数的强随机性等影响,相关模型不能完全反映充电行为的不确定性。考虑到数据驱动下的无模型强化学习(MFRL)具有不依赖先验建模、适应强非线性... 详细信息

电动汽车有序充电是智能用电领域的重要议题。传统的模型驱动方法需对充电行为建模,但受相关参数的强随机性等影响,相关模型不能完全反映充电行为的不确定性。考虑到数据驱动下的无模型强化学习(MFRL)具有不依赖先验建模、适应强非线性关系样本数据的优势,提出将其应用于充电站的有序充电负荷优化。针对性地构建以用户充电需求能否获得满足为状态的马尔可夫决策过程(MDP),并利用充电完成度指标和满意度惩罚项改进代价函数。具体采用增量式的时序差分学习(TDL)算法训练历史数据,以保证数据规模下的计算性能。算例以充电站实测数据为环境,结果表明,在无需对充电行为进行先验建模的情况下,所提方法能够准确、快速地制定充电站有序充电计划。

关键词：电动汽车有序充电无模型强化学习数据驱动方法马尔可夫决策过程(MDP)

来源：评论

学校读者我要写书评

暂无评论

智能电网中的网络攻击检测机制的研究

引用

网络安全技术与应用 2020年第6期 28-29页

作者：马晓杰程晓荣华北电力大学(保定)控制与计算机工程学院河北071000

本文首先分析了智能电网数据通信中的挑战,然后对智能电网中混合式和隐身网络攻击的实时检测以及基于无模型强化学习(RL)框架的在线检测算法等一些网络攻击检测机制进行了研究。为了探究检测机制中提高安全性的工作方案,本文对现有网络... 详细信息

本文首先分析了智能电网数据通信中的挑战,然后对智能电网中混合式和隐身网络攻击的实时检测以及基于无模型强化学习(RL)框架的在线检测算法等一些网络攻击检测机制进行了研究。为了探究检测机制中提高安全性的工作方案,本文对现有网络攻击检测方法在某些因素上进行了分析工作。最后,本文给出了目前智能电网网络攻击检测方法可用的工作方向。

关键词：智能电网卡尔曼滤波器无模型强化学习网络攻击

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：