检索结果-内蒙古大学图书馆

系统仿真学报 2025年第4期37卷 875-881页

作者：张森代强强河南科技大学信息工程学院河南洛阳471023

针对无人机在复杂环境下进行路径规划时,存在收敛性差和无效探索等问题,提出一种改进型深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。采用双经验池机制,分别存储成功经验和失败经验,算法能够利用成功经验强化策... 详细信息

针对无人机在复杂环境下进行路径规划时,存在收敛性差和无效探索等问题,提出一种改进型深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。采用双经验池机制,分别存储成功经验和失败经验,算法能够利用成功经验强化策略优化,并从失败经验中学习避免错误路径;引入人工势场法为规划增加引导项,与随机采样过程中的探索噪声动作相结合,对所选动作进行动态整合;通过设计组合奖励函数,采用方向、距离、障碍躲避及时间奖励函数实现路径规划的多目标优化,并解决奖励稀疏问题。实验结果表明:该算法的奖励和成功率能够得到显著提高,且能够在更短的时间内达到收敛。

关键词：无人机深度强化学习路径规划深度确定性策略梯度人工势场法

来源：评论

学校读者我要写书评

暂无评论

基于深度确定性策略梯度算法的股票投资组合策略研究

引用

东北师大学报(自然科学版) 2025年第1期57卷 29-34页

作者：董小刚韩元元秦喜文长春工业大学数学与统计学院吉林长春130012 吉林省数据科学与智能决策重点实验室吉林长春130012

为构建更加全面有效的投资组合,采用了深度确定性策略梯度算法,并在奖励函数中引入了风险衡量指标索提诺比率来实现风险与收益之间的权衡.除基本的股票数据外还将股票市场中的技术指标作为状态的输入,以捕捉股票市场的主要趋势.经数据检... 详细信息

为构建更加全面有效的投资组合,采用了深度确定性策略梯度算法,并在奖励函数中引入了风险衡量指标索提诺比率来实现风险与收益之间的权衡.除基本的股票数据外还将股票市场中的技术指标作为状态的输入,以捕捉股票市场的主要趋势.经数据检验,与其他强化学习算法对比,改进奖励函数的DDPG算法能够在控制风险的同时得到较高收益,有效地实现了风险的分散和投资组合的稳健性.

关键词：股票投资组合深度强化学习索提诺比率深度确定性策略梯度

来源：评论

学校读者我要写书评

暂无评论

深度确定性策略梯度算法用于无人飞行器控制

引用

航空学报 2021年第11期42卷 397-407页

作者：黄旭柳嘉润贾晨辉王昭磊张隽北京航天自动控制研究所北京100854 宇航智能控制技术国家级重点实验室北京100854

对深度确定性策略梯度算法训练智能体学习小型无人飞行器的飞行控制策略进行了探索研究。以多数据帧的速度、位置和姿态角等信息作为智能体的观察状态,舵摆角和发动机推力指令作为智能体的输出动作,飞行器的非线性模型和飞行环境作为智... 详细信息

对深度确定性策略梯度算法训练智能体学习小型无人飞行器的飞行控制策略进行了探索研究。以多数据帧的速度、位置和姿态角等信息作为智能体的观察状态,舵摆角和发动机推力指令作为智能体的输出动作,飞行器的非线性模型和飞行环境作为智能体的学习环境。智能体在与环境交互过程中除了获得包含误差信息的密集惩罚外,也有达成一定目标的稀疏奖励,该设计有效提高了飞行数据的样本多样性,增强了智能体的学习效率。最后智能体实现了从位置、速度和姿态角等信息到控制量的端到端飞行控制,并进行了变航迹点、模型参数拉偏、注入扰动和故障条件下的飞行控制仿真,结果表明智能体除了能有效完成训练任务外,还能应对多种训练时未学习的飞行任务,具有优秀的泛化能力和鲁棒性,该方法具有一定的研究价值和工程参考价值。

关键词：深度确定性策略梯度小型无人飞行器飞行控制端到端稀疏奖励

来源：评论

学校读者我要写书评

暂无评论

深度确定性策略梯度和预测相结合的无人机空战决策研究

引用

西北工业大学学报 2023年第1期41卷 56-64页

作者：李永丰吕永玺史静平李卫华西北工业大学自动化学院陕西西安710129 陕西省飞行控制与仿真技术重点实验室陕西西安710129

针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动... 详细信息

针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动作库,在空战中目标通过深度Q网络算法生成相应机动动作库指令,同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明,该算法可以有效利用空战态势信息和目标机动预测信息,在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。

关键词：无人机空战机动决策预测深度确定性策略梯度

来源：评论

学校读者我要写书评

暂无评论

深度确定性策略梯度学习的火星无人机控制

引用

计算机工程与应用 2023年第8期59卷 288-296页

作者：孙丹郑建华高东韩鹏中国科学院国家空间科学中心北京100190 中国科学院大学北京100049

为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定... 详细信息

为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。

关键词：火星无人机强化学习自主控制深度确定性策略梯度策略优化

来源：评论

学校读者我要写书评

暂无评论

深度确定性策略梯度算法优化

引用

辽宁工程技术大学学报（自然科学版） 2020年第6期39卷 545-549页

作者：刘洋李建军辽宁工程技术大学理学院辽宁阜新123000

针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于... 详细信息

针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于排序优先性机制求得优先级对经验采样,使用得到的样本训练学习网络.在仿真环境中进行的对比实验表明:与深度确定性策略梯度算法和基于时间差分误差的深度确定性策略梯度算法相比,该方法能够减少训练的时间、提高系统的学习能力.

关键词：强化学习深度确定性策略梯度复合优先经验回放立即回报时间差分误差

来源：评论

学校读者我要写书评

暂无评论

深度确定性策略梯度算法耦合模型驱动的行人过街仿真

引用

上海大学学报（自然科学版） 2023年第4期29卷 651-665页

作者：宋涛王彦林魏昕恺韦艳芳湖州师范学院理学院浙江湖州313000 湖州市数据建模与分析重点实验室浙江湖州313000 玉林师范学院物理与电信工程学院广西玉林537000

行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差... 详细信息

行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差项和有速度差项2种行人二维优化速度模型的策略探索方案,揭示出带有速度差项行人二维优化速度模型的耦合驱动算法倾向于灵活地选择相对安全的动作,从而使行人选择动作的策略也更优,达到了完全避免行人碰撞、确保行人安全的功能.

关键词：深度确定性策略梯度二维优化速度模型碰撞无信号交叉口行人仿真

来源：评论

学校读者我要写书评

暂无评论

基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法

引用

通信学报 2024年第10期45卷 116-128页

作者：宋晓勤吴志豪赖海光雷磊张莉涓吕丹阳郑成辉南京航空航天大学电子信息工程学院江苏南京210016 东南大学移动通信全国重点实验室江苏南京210096 南京控维通信科技有限公司江苏南京211135

为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 详细信息

为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。

关键词：星地融合网络深度确定性策略梯度资源分配多接入边缘计算

来源：评论

学校读者我要写书评

暂无评论

基于多动作并行异步深度确定性策略梯度的选矿运行指标决策方法

引用

控制与决策 2022年第8期37卷 1989-1996页

作者：李悄然丁进良东北大学流程工业综合自动化国家重点实验室沈阳110004

为了解决深度确定性策略梯度算法探索能力不足的问题,提出一种多动作并行异步深度确定性策略梯度(MPADDPG)算法,并用于选矿运行指标强化学习决策.该算法使用多个actor网络,进行不同的初始化和训练,不同程度地提升了探索能力,同时通过扩... 详细信息

为了解决深度确定性策略梯度算法探索能力不足的问题,提出一种多动作并行异步深度确定性策略梯度(MPADDPG)算法,并用于选矿运行指标强化学习决策.该算法使用多个actor网络,进行不同的初始化和训练,不同程度地提升了探索能力,同时通过扩展具有确定性策略梯度结构的评论家体系,揭示了探索与利用之间的关系.该算法使用多个DDPG代替单一DDPG,可以减轻一个DDPG性能不佳的影响,提高学习稳定性;同时通过使用并行异步结构,提高数据利用效率,加快了网络收敛速度;最后,actor通过影响critic的更新而得到更好的策略梯度.通过选矿过程运行指标决策的实验结果验证了所提出算法的有效性.

关键词：选矿运行指标决策多动作并行异步深度确定性策略梯度

来源：评论

学校读者我要写书评

暂无评论

基于深度确定性策略梯度学习的无线反向散射数据卸载优化

引用

兵工学报 2021年第12期42卷 2655-2663页

作者：耿天立高昂王琦段渭军胡延苏西北工业大学电子信息学院陕西西安710072 物联网技术及应用国家地方联合工程实验室陕西西安710072 长安大学电子与控制学院陕西西安710072

无线驱动通信网络中,无线设备(WD)可以通过无线反向散射和主动射频传输两种方式进行数据卸载。如何合理分配系统中WD的主动传输和反向散射传输工作模式及其对应的工作时间,从而减小传输延迟、提高传输效率就显得尤为必要。在综合考虑卸... 详细信息

无线驱动通信网络中,无线设备(WD)可以通过无线反向散射和主动射频传输两种方式进行数据卸载。如何合理分配系统中WD的主动传输和反向散射传输工作模式及其对应的工作时间,从而减小传输延迟、提高传输效率就显得尤为必要。在综合考虑卸载数据量大小、信道条件和WD之间公平性情况下,提出一种基于深度确定性策略梯度(DDPG)的数据卸载方法,在连续动作空间内搜索多个WD的最优时间分配。仿真实验结果表明:DDPG可在有限时间步长内实现算法收敛;由于引入了Jain公平指数,多个WD可同时完成数据卸载;与传统的均分算法、贪心算法对比,DDPG算法可将平均传输延迟减小77.4%和24.2%,可有效提高WD的能耗效率,尤其对于卸载数据量较小的WD效果更加显著。

关键词：反向散射数据卸载深度确定性策略梯度强化学习

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：