检索结果-内蒙古大学图书馆

计算机工程 2025年第1期51卷 60-70页

作者：陈浩陈珺刘飞江南大学轻工过程先进控制教育部重点实验室江苏无锡214122

移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径... 详细信息

移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径规划性能。首先,引入长短期记忆(LSTM)神经网络并与TD3算法相结合,通过门结构筛选历史状态信息,并感知探测范围内障碍物的状态变化,帮助机器人更好地理解环境的动态变化和障碍物的移动模式,使移动机器人能够准确预测和响应动态障碍物的行为,从而降低与障碍物的碰撞率。其次,加入OU (Ornstein-Uhlenbeck)探索噪声,帮助移动机器人持续探索周围环境,增强移动机器人的探索能力和随机性。在此基础上,将单个经验池设置为成功、失败和临时3个经验池,以此提高有效经验样本的采样效率,进而减少训练时间。最后,在2个不同的动、静态障碍物混合场景中进行路径规划实验仿真。实验结果表明:场景1中该算法相较于深度确定性策略梯度(DDPG)算法以及TD3算法,模型收敛的回合数减少了100~200个,路径长度缩短了0.5~0.8,规划时间减少了1~4 s;场景2中该算法相较于TD3算法,模型收敛的回合数减少了100~300个,路径长度缩短了1~3,规划时间减少了4~8 s, DDPG算法失败,移动机器人无法成功抵达终点。由此可见,改进的算法具有更好的路径规划性能。

关键词：移动机器人路径规划双延迟深度确定性策略梯度算法长短期记忆神经网络 OU探索噪声

来源：评论

学校读者我要写书评

暂无评论

基于改进TD3的RIS-无人机通信系统能效优化

引用

西安电子科技大学学报 2025年

作者：王翊邓毓许耀华蒋芳江福林胡艳军安徽大学信息材料与智能感知安徽省实验室

考虑到可重构智能表面(RIS)辅助的无人机 (UAV) 通信系统中存在多个移动用户的情况，研究了UAV的飞行能耗对系统能效的影响，通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合，... 详细信息

考虑到可重构智能表面(RIS)辅助的无人机 (UAV) 通信系统中存在多个移动用户的情况，研究了UAV的飞行能耗对系统能效的影响，通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合，传统算法难以直接求解，提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3)，通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构，同时对多个用户移动性建模，分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明，相较于其他算法，GD-TD3算法在系统能效提升方面表现更好，在收敛速度和收敛稳定性方面都有一定提升。

关键词：可重构智能表面无人机通信轨迹优化双延迟深度确定性策略梯度算法

来源：评论

学校读者我要写书评

暂无评论

面向物联网数据收集的无人机自主路径规划

引用

航空学报 2024年第8期45卷 229-243页

作者：张薇何若俊哈尔滨工程大学信息与通信工程学院哈尔滨150001

路径规划旨在为无人机(UAV)提供安全可靠的行进路径,而实际环境的动态性极大地增加了路径规划的难度。本文针对物联网(IoT)节点处的数据收集问题,构建了一个复杂的3D动态环境,在多评论家深度确定性梯度算法(MCDDPG)的基础上提出一种基... 详细信息

路径规划旨在为无人机(UAV)提供安全可靠的行进路径,而实际环境的动态性极大地增加了路径规划的难度。本文针对物联网(IoT)节点处的数据收集问题,构建了一个复杂的3D动态环境,在多评论家深度确定性梯度算法(MCDDPG)的基础上提出一种基于无人机电量约束、路径长度最小化(MCDDPG-EPM)算法。算法考虑无人机自身电量约束及其在物联网节点间的调度问题,确保无人机在电量供应安全的前提下以较短的路径长度完成数据采集工作。特别地,为了应对动态环境下突发障碍物移动问题,提出信息增强的概念,以降低移动障碍物带来的路径不确定性。仿真结果表明,当物联网节点数为20时,所提算法相较于双延迟深度确定性策略梯度算法(TD3)、传统A^(*)算法和蚁群算法(ACO)分别节省了11.8%、13.2%和15.1%的电量消耗。

关键词：路径规划物联网无人机多评论家深度确定性梯度算法双延迟深度确定性策略梯度算法

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的增程式电动轻卡能量管理策略

引用

内燃机工程 2023年第6期44卷 90-99页

作者：段龙锦王贵勇王伟超何述超昆明理工大学云南省内燃机重点实验室昆明650500 昆明云内动力股份有限公司昆明650500

为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 详细信息

为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。

关键词：深度Q网络深度确定性策略梯度双延迟深度确定性策略梯度算法增程式电动轻卡

来源：评论

学校读者我要写书评

暂无评论

基于改进TD3算法的无人机区域侦察研究

引用

飞行力学 2024年第6期42卷 36-42页

作者：蒋方庆陈自力高喜俊张云陆军工程大学河北石家庄050003

在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法实现无人机快速侦察目标。针对TD3算法的单策... 详细信息

在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法实现无人机快速侦察目标。针对TD3算法的单策略网络输出动作波动大问题,提出构建双策略网络来缓解,并提出利用带修正偏差的指数移动加权平均法建立价值网络与策略网络更新之间的联系,以自适应地改变更新周期。当无人机接收到辐射源信号时,采用最优航迹对辐射源进行定位;未检测到信号时,则根据历史经验飞行寻找信号源。仿真结果表明,所提方法可有效提高算法的收敛速度。

关键词：无人机双延迟深度确定性策略梯度算法双策略网络自适应延迟更新机制

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的单臂机器人末端姿态控制

引用

济南大学学报（自然科学版） 2022年第5期36卷 616-625,634页

作者：范振陈乃建董春超张来伟包佳伟李亚辉李映君济南大学机械工程学院山东济南250022

基于双延迟深度确定性策略梯度算法对单臂机器人倒立摆在Simulink软件环境中进行仿真,并与深度确定性策略梯度算法进行比较,验证该算法的控制精度以及在机器人控制中的应用可行性;建立单臂机器人倒立摆仿真模型,添加摩擦模型,并以单臂... 详细信息

基于双延迟深度确定性策略梯度算法对单臂机器人倒立摆在Simulink软件环境中进行仿真,并与深度确定性策略梯度算法进行比较,验证该算法的控制精度以及在机器人控制中的应用可行性;建立单臂机器人倒立摆仿真模型,添加摩擦模型,并以单臂机器人参数辨识所得的实际参数对所建立的仿真模型加以约束,提高实际应用时的控制精度与实时性;在训练过程中对摆杆随机施加一定数值范围内的干扰力,提高训练模型的抗干扰能力;根据所建立仿真模型的特点设计、改进Actor-Critic网络及奖励函数,在短时间内以较小的控制力使末端摆杆从初始状态摆动至竖直状态并持续保持。结果表明,改进的双延迟深度确定性策略梯度算法可以在减小输出控制力的同时对机械臂末端姿态实现并保持精准控制,并且在受到干扰力时可自行调整,改善了训练模型的鲁棒性与适应性,减少了运行时间。

关键词：机器人控制双延迟深度确定性策略梯度算法强化学习卷积神经网络倒立摆系统

来源：评论

学校读者我要写书评

暂无评论

基于TD3算法的光伏电站参与电力系统频率控制策略

引用

郑州大学学报(工学版) 2024年

作者：张建华陶莹赵思华北电力大学控制与计算机工程学院

针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 详细信息

针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较,结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。

关键词：光伏并网系统一次调频深度强化学习双延迟深度确定性策略梯度算法控制性能

来源：评论

学校读者我要写书评

暂无评论

基于扰动流体与TD3的无人机路径规划算法

引用

电光与控制 2024年第1期31卷 57-62页

作者：陈康雄刘磊河海大学南京211000

针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 详细信息

针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。

关键词：无人机路径规划双延迟深度确定性策略梯度算法深度强化学习扰动流体动态系统

来源：评论

学校读者我要写书评

暂无评论

动态威胁环境下基于深度强化学习的无人机航迹规划研究

动态威胁环境下基于深度强化学习的无人机航迹规划研究

引用

作者：赵鹏杰哈尔滨工程大学

学位级别：硕士

航迹规划是确保无人机飞行、侦察与打击等任务成功的关键,直接影响无人机的执行效率、安全性和隐蔽性。随着战场环境的愈发复杂,并发合作任务量增大,对无人机航迹规划的安全隐蔽飞行、多机联合协作提出新的挑战。本文结合单智能体深度... 详细信息

航迹规划是确保无人机飞行、侦察与打击等任务成功的关键,直接影响无人机的执行效率、安全性和隐蔽性。随着战场环境的愈发复杂,并发合作任务量增大,对无人机航迹规划的安全隐蔽飞行、多机联合协作提出新的挑战。本文结合单智能体深度强化学习与异构智能体镜像学习等技术,开展动态威胁环境下单无人机与多无人机航迹规划研究,主要研究内容如下: 首先,为了模拟无人机真实战场环境,给出了复杂动态环境构建与威胁源定位方法。利用Unity3D引擎,模拟无人机飞行仿真环境,依据雷达原理,构建动态威胁源;运用双站测向交叉定位,感知动态威胁位置信息,实现了动态环境下无人机威胁定位。其次,为了提高无人机航迹规划算法的实时性,给出了基于深度强化学习的单无人机航迹规划方法。该方法在获取感知定位信息的基础之上,结合飞行动力约束,综合考虑航迹规划需求,构建强化学习要素;基于Actor-Critic框架,利用双延迟深度确定性策略梯度算法,搭建并训练网络模型,给出了基于TD3的单无人机航迹规划算法,实现无人机实时航迹规划。然后,为提高动态威胁环境下,基于TD3算法的单无人机航迹规划的可靠性,研究了基于改进深度强化学习的单无人机航迹规划方法。该方法设计循环自注意力单元,改进Actor-Critic网络结构,提升网络的特征表征能力;联合马尔科夫吸收态,优化奖励要素,更新经验回放结构,改善网络的训练学习能力,提出了基于RATD3的单无人机航迹规划算法,进一步增强单无人机实时航迹规划的可靠性。最后,为增强多无人机航迹规划在动态大量威胁环境下的任务完成效果,研究了基于异构智能体镜像学习的多无人机航迹规划方法。该方法重新制定联合状态、动作和奖励要素,改进伪吸收终态训练机制,搭建HA-RATD3网络结构;在此基础之上,迁移单无人机网络模型,微调Actor-Critic网络结构,增强无人机个体收敛性能,设计完成度贪婪法则,优化联合策略更新方式,加强无人机群体收敛性能,提出了基于HA-CRATD3的多无人机航迹规划算法,实现多无人机可靠航迹规划。

关键词：无人机航迹规划改进深度强化学习异构智能体镜像学习双延迟深度确定性策略梯度算法

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习算法的无人驾驶智能控制策略研究

基于深度强化学习算法的无人驾驶智能控制策略研究

引用

作者：孙超东北石油大学

学位级别：硕士

随着人工智能、5G等前沿技术的高速发展,以及人类对驾驶车辆安全性、缓解交通拥堵等方面的急切需求,智能汽车已成为现代汽车工业的发展重点,将人工智能算法与无人驾驶技术相结合已成为现阶段各国学者的研究热点。深度强化学习(DRL)作为... 详细信息

随着人工智能、5G等前沿技术的高速发展,以及人类对驾驶车辆安全性、缓解交通拥堵等方面的急切需求,智能汽车已成为现代汽车工业的发展重点,将人工智能算法与无人驾驶技术相结合已成为现阶段各国学者的研究热点。深度强化学习(DRL)作为人工智能领域具有决策功能的杰出算法,在解决复杂的控制任务中有着自主学习等多方面优势,对实现无人驾驶车辆的智能控制具有重要意义。本文将深度强化学习算法应用于无人驾驶智能控制策略的学习中,并采用开源赛车模拟器(TORCS)仿真环境验证了算法的有效性。本文首先针对深度确定性策略梯度(DDPG)算法存在价值高估偏差,训练参数脆弱等问题,决定采用基于DDPG算法改进的双延迟深度确定性策略梯度(TD3)算法作为无人驾驶车辆的智能控制算法。并针对TD3算法中由于采用固定延迟步长的策略更新,没有考虑价值估计的动态性,从而影响策略学习效率的问题,本文提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-TD3)算法,DD-TD3算法将价值网络更新损失的指数加权移动平均值(EWMA)设置为动态延迟步长的更新标准,并以此标准指导策略网络延迟更新。然后,针对TD3算法在训练过程中对经验回放体中的经验样本进行随机采样,并未考虑经验样本重要性差异,从而导致算法训练效率低、训练过程不稳定的问题。本文设计了一种强调优秀经验的回放体(EOE Buffer),该回放体通过立即奖励的指数加权移动平均值对经验样本进行重要性分类,通过增加在优秀经验样本中的采样频率来提高算法的训练效率。针对神经网络的灾难性遗忘问题,通过深入研究深度强化学习算法训练过程中初始探索经验的重要性,设计将初始探索经验保留在EOE Buffer中以提高TD3算法持续学习的能力。通过在Pendulum-v0环境下进行实验测试。验证了DD-TD3算法及EOE Buffer的有效性。最后,以无人驾驶车辆控制为应用实例,采用基于EOE Buffer的DD-TD3算法(EOE DD-TD3)对TORCS仿真环境中的车辆进行智能驾驶控制。通过对实验结果的分析,验证了上述算法在学习无人驾驶智能控制策略过程中的有效性。

关键词：无人驾驶深度强化学习算法双延迟深度确定性策略梯度算法经验回放体

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：