检索结果-内蒙古大学图书馆

系统科学与数学 2022年第5期42卷 1067-1087页

作者：吴磊康英伟上海电力大学自动化工程学院上海200090

针对传统石灰石/石膏湿法烟气脱硫(WFGD)系统运行优化方式适应性不强,效率低,资源消耗大等问题,提出了一种基于数据驱动建模和深度强化学习的脱硫系统运行优化方法.首先为解决传统PCA只能衡量特征变量间线性关系的局限性,将互信息(MI)引... 详细信息

针对传统石灰石/石膏湿法烟气脱硫(WFGD)系统运行优化方式适应性不强,效率低,资源消耗大等问题,提出了一种基于数据驱动建模和深度强化学习的脱硫系统运行优化方法.首先为解决传统PCA只能衡量特征变量间线性关系的局限性,将互信息(MI)引入PCA中优化主成分分析结果和长短期记忆网络(LSTM)的输入变量;然后利用改进粒子群(IPSO)确定LSTM的最优参数组合,降低LSTM训练成本;最后基于MIPCA-IPSO-LSTM模型构建脱硫系统与强化学习的快速交互环境.考虑到传统深度确定性策略梯度(ddpg)算法存在收敛速度比较慢,训练不稳定耗时长,样本利用效率低的问题,文章提出采用基于累计回报的双经验池回放机制的深度确定性策略梯度(DER-ddpg)算法搭建优化仿真平台.文章以某电厂600MW机组脱硫系统为例,基于Python语言和TensorFlow框架下的仿真结果表明,与传统PCA相比,MIPCA能够保留更多原始数据信息并剔除冗余信息;IPSO可以提高PSO的全局寻优能力和收敛速度,与其他传统模型相比,当LSTM具有2层隐含层时具有更高的预测性能;DER-ddpg算法得出的优化策略在满足脱硫系统实际工艺参数需要的前提下,有效地降低了脱硫的运行成本,相比DQN算法和ddpg算法更具实际应用价值,能满足脱硫系统运行优化的需要.

关键词：双经验池回放机制 ddpg算法互信息主成分分析粒子群 LSTM网络运行优化

来源：评论

学校读者我要写书评

暂无评论

基于ddpg深度强化学习的电站脱硝过程优化控制

引用

计算机测量与控制 2022年第10期30卷 132-139页

作者：林康威肖红姜文超杨建仁熊广思黄冠儒广东工业大学计算机学院广州510006 广州云硕科技发展有限公司广州511458

针对选择性催化还原(SCR,selective catalytic reduction)脱硝系统脱硝过程存在非线性、多工况等复杂特点,提出一种基于MiniBatchKMeans聚类与Stacking模型融合的SCR脱硝过程NO_(X)预测方法;该方法通过应用MiniBatchKMeans聚类算法对训... 详细信息

针对选择性催化还原(SCR,selective catalytic reduction)脱硝系统脱硝过程存在非线性、多工况等复杂特点,提出一种基于MiniBatchKMeans聚类与Stacking模型融合的SCR脱硝过程NO_(X)预测方法;该方法通过应用MiniBatchKMeans聚类算法对训练集进行工况聚类与划分优化,建立基于XGBoost、随机森林、LightGBM以及线性回归的Stacking融合框架预测模型(Stacking-XRLL),实现电站SCR系统多变工况下NO_(X)排放的精准预测;以广东某电站SCR系统脱硝过程中NO_(X)排放数据为例进行建模仿真与实验,结果表明与单一建模方法多层前馈神经网络(BP)、长短期记忆神经网络(LSTM)以及门控循环单元神经网络(GRU)相比,Stacking-XRLL建模方法的平均预测精确度达到了99%,并最终结合建立好的深度确定性策略梯度(ddpg)强化学习模型,实现电站SCR脱硝过程的参数优化控制。

关键词：多工况 MiniBatchKMeans聚类 Stacking-XRLL ddpg算法优化控制

来源：评论

学校读者我要写书评

暂无评论

基于深度学习的湿法冶金全流程分层优化及仿真算法分析研究

引用

湿法冶金 2024年

作者：何丹褚新建马晓晓贾钰峰新疆科技学院信息科学与工程学院

研究提出了一种基于深度学习的湿法冶金全流程分层优化模型。模型采用分层设计，包括工序层优化和过程层优化。在工序层创新引入Transformer模型建立物耗与质量指标的非线性映射模型，以最小物耗为目标优化各工序参数。在过程层创新引入... 详细信息

研究提出了一种基于深度学习的湿法冶金全流程分层优化模型。模型采用分层设计，包括工序层优化和过程层优化。在工序层创新引入Transformer模型建立物耗与质量指标的非线性映射模型，以最小物耗为目标优化各工序参数。在过程层创新引入ddpg算法调整操作变量，实现全流程经济效益最大化。此外，引入生成对抗网络（GAN）生成优化样本，进一步提升优化模型的鲁棒性。基于Transformer的优化模型实时调整氰化钠和锌粉添加量后，金产量明显提升，物料消耗成本显著降低；优化试验与相比基准试验相比，经济效益提高15%～20%，浸出率和置换率相分别提高2%～4%。该模型在经济效益、工艺稳定性及不确定性适应能力方面均优于传统深度学习方法，可湿法冶金行业的智能化生产提供一种新途径。

关键词：湿法冶金 Transformer模型 GAN ddpg算法数值仿真

来源：评论

学校读者我要写书评

暂无评论

基于深度学习的智能驾驶车辆路径仿真研究

引用

中南民族大学学报（自然科学版） 2022年第5期41卷 586-591页

作者：何倩仝武宁陕西中医药大学计算机实验中心咸阳712000

基于深度强化学习技术研究了智能驾驶中的路径规划问题,且在虚拟环境下进行了模拟分析,对提出的路径规划算法性能做了验证研究.提出了一种改进的经验回放机制ERddpg(Experience Replay Deep Deterministic Policy Gradient)算法,对经验... 详细信息

基于深度强化学习技术研究了智能驾驶中的路径规划问题,且在虚拟环境下进行了模拟分析,对提出的路径规划算法性能做了验证研究.提出了一种改进的经验回放机制ERddpg(Experience Replay Deep Deterministic Policy Gradient)算法,对经验样本通过优先经验回放机制处理而设置不同的优先级,高质量的经验样本被优先采样,这种模式下网络的训练效率显著提高.在仿真实验中,所提出的ERddpg算法可完成智能驾驶的路径规划,学习效率较高,且智能车行驶的稳定性更好.

关键词：智能驾驶深度强化学习 ddpg算法经验回放机制

来源：评论

学校读者我要写书评

暂无评论

基于增量式发育深度强化学习的无人机路径规划

引用

飞行力学 2023年第3期41卷 40-46页

作者：杨秀霞王晨蕾张毅于浩姜子劼海军航空大学山东烟台264000

为了克服深度强化学习训练时间长、收敛速度慢的问题,针对密集动态障碍环境下的无人机(UAV)路径规划,引入了增量式发育知识库,对深度确定性策略梯度(Deep Deterministic Policy Gradient,ddpg)算法进行改进。首先,根据模糊匹配的思想建... 详细信息

为了克服深度强化学习训练时间长、收敛速度慢的问题,针对密集动态障碍环境下的无人机(UAV)路径规划,引入了增量式发育知识库,对深度确定性策略梯度(Deep Deterministic Policy Gradient,ddpg)算法进行改进。首先,根据模糊匹配的思想建立威胁模式知识库,将飞行过程中遇到的密集动态障碍作为知识进行增量式存储,避免对相似障碍环境的重复训练。其次,在底层ddpg算法规划安全航路的基础上构建避障策略知识库,根据威胁模式直接输出避障策略,缩短训练时间。最后,搭建发育式的威胁-避障映射关系,实现“线上实时避障,线下自主寻优”,不断提升UAV避障性能。对比实验结果表明,所提方法能极大提高ddpg训练效率,满足UAV在密集动态障碍环境中实时避障的需求。

关键词：无人机 ddpg算法增量式发育知识库避障

来源：评论

学校读者我要写书评

暂无评论

具有优先级的深度确定性策略梯度算法在自动驾驶中的应用

引用

上海大学学报（自然科学版） 2023年第1期29卷 105-117页

作者：金彦亮刘千红季泽宇上海大学通信与信息工程学院上海200444 不详

深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法在自动驾驶领域中应用广泛,但ddpg算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DD... 详细信息

深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法在自动驾驶领域中应用广泛,但ddpg算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-ddpg)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-ddpg算法的性能进行了测试,结果表明相对于ddpg算法,P-ddpg算法的累积奖励在25回合之后就有明显提升而ddpg在100回合之后训练效果才逐渐显现,提升约4倍.P-ddpg算法不仅训练效率提升且收敛速度加快.

关键词：自动驾驶 ddpg算法优先级经验 TORCS

来源：评论

学校读者我要写书评

暂无评论

基于强化学习的煤矸石分拣机械臂智能控制算法研究

引用

工矿自动化 2021年第1期47卷 36-42页

作者：张永超于智伟丁丽林山东科技大学机械电子工程学院山东青岛266590

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(ddpg)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDP... 详细信息

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(ddpg)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统ddpg算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进ddpg算法。煤矸石进入机械臂工作空间后,改进ddpg算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进ddpg算法相较于传统ddpg算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进ddpg算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。

关键词：选煤煤矸石分拣分拣机器人机械臂关节角状态控制强化学习奖励函数 ddpg算法

来源：评论

学校读者我要写书评

暂无评论

适用于强化学习惯性环境的分数阶改进OU噪声

引用

四川大学学报（自然科学版） 2023年第2期60卷 57-63页

作者：王涛张卫华蒲亦非四川大学计算机学院成都610065

本文将ddpg算法中使用的Ornstein-Uhlenbeck(OU)噪声整数阶微分模型推广为分数阶OU噪声模型,使得噪声的产生不仅和前一步的噪声有关而且和前K步产生的噪声都有关联.通过在gym惯性环境下对比基于分数阶OU噪声的ddpg和TD3算法和原始的ddpg... 详细信息

本文将ddpg算法中使用的Ornstein-Uhlenbeck(OU)噪声整数阶微分模型推广为分数阶OU噪声模型,使得噪声的产生不仅和前一步的噪声有关而且和前K步产生的噪声都有关联.通过在gym惯性环境下对比基于分数阶OU噪声的ddpg和TD3算法和原始的ddpg和TD3算法,我们发现基于分数阶微积分的OU噪声相比于原始的OU噪声能在更大范围内震荡,使用分数阶OU噪声的算法在惯性环境下具有更好的探索能力,收敛得更快.

关键词： ddpg算法 TD3算法分数阶微积分 OU噪声强化学习

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的自动驾驶车控制算法研究

引用

郑州大学学报（工学版） 2020年第4期41卷 41-45,80页

作者：王丙琛司怀伟谭国真大连理工大学计算机科学与技术学院辽宁大连116000

为了提高基于强化学习的自动驾驶车控制算法的学习效率,提出了一种结合专家经验的自动驾驶策略学习算法(deep deterministic policy gridient with expert,ddpgwE)。ddpgwE采用基于ddpg的强化学习框架进行模型在线训练,使用真实的人类... 详细信息

为了提高基于强化学习的自动驾驶车控制算法的学习效率,提出了一种结合专家经验的自动驾驶策略学习算法(deep deterministic policy gridient with expert,ddpgwE)。ddpgwE采用基于ddpg的强化学习框架进行模型在线训练,使用真实的人类驾驶数据对actor网络进行预训练,同时在actor网络中加入LSTM预测机制,提升自动驾驶车对将要发生状况的预判。在仿真平台TORCS中的实验结果表明,所提算法相较于原始ddpg算法,训练时间大大缩短,收敛速度加快,提高了模型的稳定性和泛化能力。

关键词：神经网络强化学习自动驾驶 ddpg算法 actor-critic网络 LSTM

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的金融交易算法实证研究

基于深度强化学习的金融交易算法实证研究

引用

作者：李尚宜东南大学

学位级别：硕士

深度强化学习是机器学习领域的一门新兴学科,它结合了深度学习的感知能力以及强化学习的控制决策能力。基于深度强化学习的金融交易算法可以从市场数据中学习到从金融市场的状态表示到交易决策的映射。相比传统交易算法的建立,它不依赖... 详细信息

深度强化学习是机器学习领域的一门新兴学科,它结合了深度学习的感知能力以及强化学习的控制决策能力。基于深度强化学习的金融交易算法可以从市场数据中学习到从金融市场的状态表示到交易决策的映射。相比传统交易算法的建立,它不依赖复杂的专家经验,相比监督学习方法,它也不需要对市场环境作出显式的预测,而是能够直接输出交易策略。金融交易场景主要分为单资产交易以及多资产的金融资产配置任务,然而在这两个任务中现有基于强化学习算法的工作中存在如马尔可夫决策过程(MDP)模型中对于市场状态表示不充分、算法中探索策略探索效果差、在交易算法训练过程中没有引入风险控制从而回测中算法收益曲线波动率高、回撤大等问题。本文针对以上问题,在金融交易领域中的单资产交易任务以及金融资产配置任务中分别提出了对应的MDP模型以及基于深度强化学习的交易算法。在单资产交易任务中,本文对于单资产交易的市场状态表示做了更加充分的挖掘,构造多种特征从多维度描述状态,使状态表示更加接近真实市场状态。同时提出了一种考虑资产回撤的回报方程,利用从环境中获得的回报来引导算法学习到在训练过程中降低收益的回撤,从而降低策略的风险。本文基于深度强化学习中的DQN算法提出了一种单资产交易算法,在神经网络的全连接层中加入服从高斯分布的噪声来驱动探索,它相比DQN算法中采用的贪心探索策略有更好的探索效果。网络中的噪声影响由一组参数进行控制,这组参数同网络中的其他参数一样通过梯度下降进行学习。同时本文改进了加入噪声后DQN算法中目标网络的更新模式,以生成稳定的目标值。在金融资产配置任务中,本文利用技术指标丰富市场状态表示,并基于深度强化学习中的ddpg算法提出了一种金融资产配置算法,在ddpg算法中引入资产权重的熵作为正则项,鼓励算法在输出资产权重时将权重分散,而不是集中在单个或几个资产中,从而降低投资组合的风险。另一方面,熵也可以作为ddpg算法探索机制的补充,引导算法进行探索。同时本文在ddpg算法中引入优先经验回放机制,将TD误差大的样本优先采样,从而提升算法的学习效果。最后本文在不同市场环境中对基于DQN的单资产交易算法以及基于ddpg的金融资产配置算法进行回测。两种交易算法在收益评估中效果均超过其余对照策略,基于ddpg的金融资产配置算法在风险评估中相比ddpg算法也取得了显著的进步。

关键词：金融交易深度强化学习 DQN算法 ddpg算法

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：