检索结果-内蒙古大学图书馆

吉林大学学报(理学版) 2025年第3期 885-894页

作者：刘全刘晓松吴光军刘禹含喀什大学计算机科学与技术学院苏州大学计算机科学与技术学院西交利物浦大学未来教育学院

针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题，提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic ... 详细信息

针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题，提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering, MDDPG-PK-Means)算法.在训练过程中，对每一时间步下的状态进行动作选择时，根据k-means算法判别结果辅佐行动者网络的决策，同时随训练时间步的增加，逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上，实验结果表明，与DDPG等算法相比，MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.

关键词：深度强化学习确定性策略梯度算法 k-means聚类多行动者

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的多无人艇路径规划研究

基于深度强化学习的多无人艇路径规划研究

引用

作者：任航哈尔滨工程大学

学位级别：硕士

随着无人艇技术的飞速发展,海洋作战领域,无人艇编队已经成为未来智能化作战的重要形式。如何实现海洋环境下多无人艇自主决策,以集群合作的形式有效完成任务,是当前研究主要问题。针对此问题,本文基于多智能体强化学习算法展开对多水... 详细信息

随着无人艇技术的飞速发展,海洋作战领域,无人艇编队已经成为未来智能化作战的重要形式。如何实现海洋环境下多无人艇自主决策,以集群合作的形式有效完成任务,是当前研究主要问题。针对此问题,本文基于多智能体强化学习算法展开对多水面无人艇路径规划的研究,将海洋无人艇路径规划问题与强化学习相结合,探索设计适用于无人艇路径规划的改进强化学习算法,重点解决多水面无人艇受规则约束情况下的避碰行驶。本文的具体研究内容包括三方面: (1)对海洋环境下,多水面无人艇会遇时的运动过程进行数学建模,计算多船会遇碰撞指标。基于COLREGs((国际海洋避碰规则)的分析,对水面无人艇会遇责任进行划分,并基于强化学习DQN算法,结合避碰规则约束,进行不同会遇局面奖励函数设计,并且通过计算机仿真实验,验证多水面无人艇避碰能力。实验表明,基于COLREGs约束的多船避碰实验训练结果良好。 (2)针对随着会遇无人艇数量增加而导致的系统收敛速度慢,系统得分波动大问题,引入基于时间序列的EWMA(移动指数平均数),提出基于动态更新步长方法的EWMA-MATD3算法,使MATD3算法能够随着时间序列对模型的更新实现动态调整,并设计对比实验,将MADDPG算法,MATD3算法和EWMAMATD3对多水面无人艇会遇局面得分收敛情况做对比,实验表明EWMAMATD3算法能够有效提高奖励收敛情况。 (3)针对强化学习算法存在的稀疏奖励问题导致的陷入局部最优点情况,本文引入基于内在驱动的好奇心奖励模块,鼓励无人艇对环境进行更充分的探索,避免由于部分智能体优化结果良好而影响全局得分变差问题,设计对比实验,实验结果表明,添加内在驱动好奇心奖励模块的优化结果在训练初期能有效减少训练震荡,加快收敛速度。通过仿真验证,本文提出的基于危险碰撞等级和好奇心机制的联合奖励强化学习算法。能够有效提升多水面无人艇路径规划能力,为实现多无人艇集群自主导航提供新的途径。

关键词：确定性策略梯度算法多智能体强化学习水面无人艇

来源：评论

学校读者我要写书评

暂无评论

基于DDPG优化方法的插电式混合动力汽车等效燃油消耗最小控制策略

引用

汽车实用技术 2025年第5期50卷 8-13页

作者：徐晓东韦文祥甘紫东湖南科技大学信息与电气工程学院湖南湘潭411100

为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混... 详细信息

为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混合动力汽车的能量管理优化问题。在MATLAB/Simulink中搭建整车仿真模型进行试验,结果表明,采用新欧洲驾驶循环特定工况,在满足车辆正常行驶动力需求下,基于DDPG算法优化的等效油耗极小值算法燃油消耗明显低于双深度Q网络(DDQN)和传统的ECMS,同时维持电池SOC的平衡,保证了多目标平衡性。

关键词：插电式混合动力汽车确定性策略梯度算法等效燃油消耗最小控制策略等效因子多目标平衡

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的分层自适应PID控制算法

引用

计算机系统应用 2024年第9期33卷 245-252页

作者：余文浩齐立哲梁瀚文孙云权复旦大学工程与应用技术研究院上海200433

比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,... 详细信息

比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,即TD3-PID,用于移动机器人的自动控制.其中,上层控制器通过实时观测当前环境状态和系统状态实现对下层PID控制器参数和输出补偿量进行调整,以实时补偿误差从而优化系统性能.本文将所提出的TD3-PID控制器应用于4轮移动机器人轨迹跟踪任务并和其他控制方法进行了真实场景实验对比.结果显示TD3-PID控制器表现出更优越的动态响应性能和抗干扰能力,整体响应误差显著减小,在提高控制系统性能方面具有显著的优势.

关键词：深度强化学习 PID算法自适应控制确定性策略梯度算法轨迹跟踪

来源：评论

学校读者我要写书评

暂无评论

基于强化学习的亚轨道碎片危险区改航规划研究

基于强化学习的亚轨道碎片危险区改航规划研究

引用

作者：成志业中国民航大学

学位级别：硕士

近几年,我国商业亚轨道飞行技术有了重大突破。因其潜在的商业价值,政府及资本带动使得我国商业发射活动频繁。但由于亚轨道飞行器以超高音速飞行,在强烈的气动载荷作用下易发生解体并产生大量碎片,其产生的碎片在大气环境中所受的气动... 详细信息

近几年,我国商业亚轨道飞行技术有了重大突破。因其潜在的商业价值,政府及资本带动使得我国商业发射活动频繁。但由于亚轨道飞行器以超高音速飞行,在强烈的气动载荷作用下易发生解体并产生大量碎片,其产生的碎片在大气环境中所受的气动力呈现一定的随机性,分布和落点较难预测,且飞行高度在民机和卫星的飞行高度之间,部分碎片与民航飞机发生碰撞、瞬时产生灾难性后果的可能性较高。因此,有必要针对亚轨道碎片危险区进行改航规划研究,并分析其算法性能,从而为空管员提供决策参考。本文将分为两部分进行研究:(1)针对亚轨道飞行器爆炸解体所产生的碎片危险区,在python3.8中建立自定义环境,以嵌入强化学习框架中。对危险区进行外扩处理之后,建立马尔科夫决策过程数学模型,并利用人工势场法以及射线法优化奖励函数,将状态转移五元组引入航空器路径规划任务中。然后根据深度Q网络算法进行改航路径规划,验证强化学习在改航规划中的可行性。通过从改航路径效果、奖励曲线变化以及损失函数曲线三方面对比有无经验回放的算法效果,证明经验回放机制的优势。(2)由于深度确定性策略梯度算法为DQN的进阶算法,延续了经验回放机制,可运用于连续空间,因此将其应用于改航规划当中。利用优先经验回放进行优化DDPG算法并于原始DDPG进行对比。其中叙述了DDPG算法的基本原理以及优先经验回放的基本过程,介绍了算法流程。通过仿真实验证明,优化后的DDPG和原始DDPG相比,前者缩短了规划的路径长度,且在相同奖励函数的约束下,前者更接近于外扩边界;于奖励函数曲线来看,优化后的DDPG具有较快的收敛速度和学习效率。并且该算法可同时规划两条路径,说明航空器能够应对不同情景下进行避障进而规划路线,具有良好的扩展性和自适应性。

关键词：改航路径规划亚轨道解体事故强化学习 DQN算法确定性策略梯度算法

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的投资组合构建方法研究及应用

基于深度强化学习的投资组合构建方法研究及应用

引用

作者：李彬东华大学

学位级别：硕士

在金融市场中,构建智能高效的投资组合需求日益迫切,可以帮助投资者判断市场未来趋势,规避投资风险,提高投资收益。传统基于数据分析的投资组合构建方法往往使用简单的统计学模型,难以发现市场运行规律,在处理大量数据时表现欠佳。而深... 详细信息

在金融市场中,构建智能高效的投资组合需求日益迫切,可以帮助投资者判断市场未来趋势,规避投资风险,提高投资收益。传统基于数据分析的投资组合构建方法往往使用简单的统计学模型,难以发现市场运行规律,在处理大量数据时表现欠佳。而深度强化学习算法具有强大的数据处理和分析能力,能够通过对数据的学习自适应调整策略,处理非线性问题和大规模数据,可以从海量金融数据中提取出有效信息,处理复杂多变的市场环境,并为投资决策提供科学的建议。本文提出了一种基于深度强化学习的投资组合构建方法,并设计实现了相应的投资组合构建辅助软件系统。主要内容包括以下三个方面:(1)提出了一种基于多目标优化的金融因子指标选择方法针对金融高维数据中大量因子存在信息冗余的问题,提出了一种基于多目标优化的金融因子选择方法。多目标指投资组合构建过程中的资产收益等级预测和资产价格方向预测这两个主要任务。预测资产收益等级可以提供对投资回报的估计,利于选择出对构建高收益投资组合有更大贡献的因子,预测价格方向则可以帮助在构建投资组合时做出及时的交易决策,因此本文将这两个任务作为目标任务,可以筛选出与资产收益率相关性高的因子,帮助构建出具有高收益的投资组合。方法主要包括两个阶段,在第一阶段中,首先计算各因子与多目标任务标签的信息增益大小进行排名,过滤掉部分排名较低的因子。在第二阶段,使用基于多目标损失优化的SFFS算法在上一阶段结果上做进一步选择,得到最终用于投资组合构建的因子集。通过对比实验表明,本文方法相较于传统因子选择方法取得了更好的预测效果。(2)提出了一种基于深度强化学习的投资组合构建方法基于深度强化学习中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,设计了一种并行投资组合特征提取网络(Parallel Portfolio Feature Extraction Network,PPFNet)作为策略网络用于构建投资组合。为了实现构建具有高盈利效益的投资组合的目标,DDPG算法根据决策所对应的回报值来更新策略网络PPFNet的参数,优化以组合收益为目标的奖励函数来求解策略网络,确保收益最大化。针对金融资产价格具有非平稳特点和各资产间具有相互依赖性的问题,在PPFNet中,一方面引入了非平稳Transformers(Non-stationary Transformers)解决金融时序序列非平稳性导致特征难以表示问题;另一方面使用图卷积网络(Graph Convolutional Network,GCN)提取资产间依赖性特征,避免投资组合中出现高风险的状况,最终通过将两部分特征进行融合做出决策。实验结果表明,PPFNet相较于其他主流投资组合构建方法,取得了最优的收益效益,且表现出良好的稳定性。(3)设计并实现了投资组合构建辅助软件系统为了解决模型难以被投资者实际应用的问题,本文基于所提模型设计开发了辅助投资组合构建的软件系统。此系统基于Django框架进行开发,主要包含用户管理模块、资产数据管理模块、因子管理模块、投资组合构建模块和组合回测分析模块。投资者可以根据此系统管理和优化自己的投资组合,并通过回测功能进行组合表现分析。

关键词：投资组合深度强化学习多目标优化确定性策略梯度算法图卷积网络

来源：评论

学校读者我要写书评

暂无评论

变循环发动机智能控制器设计

变循环发动机智能控制器设计

引用

作者：胡雪兰大连理工大学

学位级别：硕士

变循环发动机(Variable Cycle Engine,VCE)具有高单位推力和低耗油率,能够满足飞机的不同飞行动力要求等特性,是未来飞机的首选动力装置。与传统的航空发动机相比,变循环发动机系统结构复杂、具有更多的可调部件,传统的航空发动机多变... 详细信息

变循环发动机(Variable Cycle Engine,VCE)具有高单位推力和低耗油率,能够满足飞机的不同飞行动力要求等特性,是未来飞机的首选动力装置。与传统的航空发动机相比,变循环发动机系统结构复杂、具有更多的可调部件,传统的航空发动机多变量控制规律难以满足变循环发动机的控制要求。本文以某型变循环发动机为研究对象,分别采用脑情感学习算法和改进的确定性策略梯度算法进行变循环发动机多变量控制规律设计,并基于该型变循环发动机模型进行了仿真验证,主要研究内容包括:本文提出一种基于差分进化算法的脑情感学习模型的变循环发动机多变量控制算法。首先,分别设计了基于脑情感学习模型的变循环发动机双变量和三变量控制架构。其次,针对脑情感学习算法随着控制变量的增多,控制器参数急剧增多的问题,提出了一种基于差分算法的脑情感学习算法,实现了变循环发动机多部件组合调节。仿真结果表明,基于差分寻优算法的脑情感学习算法可以实现变循环发动机多变量的快速、精确控制。本文提出一种基于样本优先回放的确定性策略梯度算法(Deterministic policy gradient algorithm,DPG算法)的变循环发动机多变量控制算法,所提算法在经典的DPG算法基础上通过添加目标神经网络和优先回放样本池,用于提高算法的控制精度和加快多变量控制策略的训练速度,从而实现变循环发动机八个控制变量的非解耦控制。仿真结果表明,基于样本优先回放的DPG算法可以实现变循环发动机稳态控制,与传统的多变量开环、解耦控制方法相比,该方法不需要进行解耦控制和先验知识的指导,更具有工程实用性。

关键词：变循环发动机智能控制脑情感学习确定性策略梯度算法样本优先回放

来源：评论

学校读者我要写书评

暂无评论

一种基于深度强化学习的自适应巡航控制算法

引用

计算机工程 2018年第7期44卷 32-35,41页

作者：韩向敏鲍泓梁军潘峰玄祖兴北京联合大学北京信息服务工程重点实验室北京100101

自适应巡航控制是智能驾驶领域的核心技术,可通过分层控制或参数可变控制算法实现,但这些算法无法有效应对突发的跟车路况。为此,将深度强化学习与自适应巡航控制相结合,提出基于确定性策略梯度算法的自适应巡航控制算法,使智能车辆可... 详细信息

自适应巡航控制是智能驾驶领域的核心技术,可通过分层控制或参数可变控制算法实现,但这些算法无法有效应对突发的跟车路况。为此,将深度强化学习与自适应巡航控制相结合,提出基于确定性策略梯度算法的自适应巡航控制算法,使智能车辆可以在自学习过程中完成自适应巡航并不断改进。在开源平台上的测试结果表明,该算法可以使智能驾驶车辆在跟车时加速度保持在1.8 m/s^2以内的比例超过90%,达到人类驾驶员的巡航跟车水平。

关键词：智能驾驶自动控制自适应巡航控制深度强化学习确定性策略梯度算法

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：