检索结果-内蒙古大学图书馆

控制与决策 2025年第3期40卷 1015-1023页

作者：程玉虎安冰清孔毅中国矿业大学信息与控制工程学院江苏徐州221116

值函数估计偏差修正已成为深度强化学习领域的一个重要研究方向.现有大多数研究工作均聚焦于如何缓解高估偏差,却忽略了缓解高估偏差过程中引入的低估偏差问题.为此,通过在Actor-Critic框架中灵活设置多个Actor和Critic网络来缓解值函... 详细信息

值函数估计偏差修正已成为深度强化学习领域的一个重要研究方向.现有大多数研究工作均聚焦于如何缓解高估偏差,却忽略了缓解高估偏差过程中引入的低估偏差问题.为此,通过在Actor-Critic框架中灵活设置多个Actor和Critic网络来缓解值函数低估偏差,提出一种基于组合网络优化的延迟深度确定性策略梯度(D3PGCNO).D3PG-CNO的主要思路为:在经验收集阶段用一个Critic网络对多个Actor网络的输出动作进行评估,并选择最优的动作存入经验池.在经验训练阶段,从多个Critic网络中选出在当前状态-动作对下估计结果最小的Critic网络,并用其对多个Actor网络的输出动作进行评估,选择评估最大值进行目标值的计算.MuJoCo平台上的实验结果显示,相比于现有的确定性策略梯度算法,D3PG-CNO显著降低了估计偏差,提高了算法的稳定性和收敛速度,并在多个任务中表现出更好的性能.

关键词：深度强化学习低估偏差确定性策略梯度 Actor-Critic框架值函数

来源：评论

学校读者我要写书评

暂无评论

倒立摆模糊确定性策略梯度控制方法研究

引用

导航定位与授时 2025年第1期 38-49页

作者：李霖翔刘开南班晓军冯志超哈尔滨工业大学控制理论与制导技术研究中心火箭军工程大学导弹工程学院

倒立摆系统作为一类典型的非最小相位系统，具有显著的非线性和不稳定性特点，使其控制问题具有一定挑战性。针对传统基于深度强化学习的倒立摆控制方法中存在的神经网络可解释性不足、状态量难以收敛到期望值的问题，提出了一种基于确... 详细信息

倒立摆系统作为一类典型的非最小相位系统，具有显著的非线性和不稳定性特点，使其控制问题具有一定挑战性。针对传统基于深度强化学习的倒立摆控制方法中存在的神经网络可解释性不足、状态量难以收敛到期望值的问题，提出了一种基于确定性策略梯度的模糊强化学习(FDPG)控制算法。该算法将确定性策略梯度方法与T-S模糊模型相结合，利用T-S模糊模型良好的函数拟合能力，逼近Actor-Critic框架中的Actor结构，进而将控制策略用模糊规则直观地表达出来，使控制器的实际意义更加明确。同时，基于T-S模糊模型良好的可解释性优势，将线性二次型调节器(LQR)推导的最优控制律作为先验知识融入T-S模型中，保证了控制器局部稳定性。最后，通过与传统的深度确定性策略梯度(DDPG)算法以及模糊控制方法进行对比分析，验证了所提算法在倒立摆系统的控制中具有更好的控制效果与泛化能力。

关键词：模糊强化学习模糊T-S模型倒立摆控制确定性策略梯度 DDPG算法

来源：评论

学校读者我要写书评

暂无评论

基于熵正则化和定期更新的深度确定性策略梯度

基于熵正则化和定期更新的深度确定性策略梯度

引用

作者：韩帅吉林大学

学位级别：硕士

确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法是一种被广泛应用的强化学习算法。该方法虽然能在一定程度上解决连续动作域中的高维序贯决策问题,但其表现往往不稳定,在解决实际问题时效率低下。确定性策略梯度算法的... 详细信息

确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法是一种被广泛应用的强化学习算法。该方法虽然能在一定程度上解决连续动作域中的高维序贯决策问题,但其表现往往不稳定,在解决实际问题时效率低下。确定性策略梯度算法的不稳定性和效率低下一定程度上根源于其对环境探索和数据利用的不足。对环境探索的不足往往导致智能体无法发现环境中的关键信息,从而导致学习过程陷入局部最优解甚至导致学习失败。对数据利用的不足往往导致智能体无法利用在探索时发现的有效信息学习到有效的策略。本文主要围绕环境探索和数据利用问题,对确定性策略梯度算法开展了较为深入的研究,主要研究工作总结如下:1.本文提出了深度伪确定性策略梯度的熵正则化方法。本文使用可学习的噪声层参数化策略网络的输出层,并推导了噪声化参数的可学习的独立熵和联合熵,以及联合熵的一个易于计算的上界。深度伪确定性策略梯度的熵正则化方法在学习前期最大化目标函数的同时,最大化噪声参数的可学习的独立熵,以促进探索;在学习后期最大化目标函数的同时,通过最小化噪声参数联合熵的上界来间接最小化其联合熵,以促进稳定策略的形成。本文在一系列连续动作域的实验中对比了该方法与基准算法的表现,实验结果表明该方法超过了以往的算法。此外,本文还分析了正则化因子的设置对算法表现的影响,在Mujoco环境下给出了表现较好的参数设置。2.本文针对数据利用问题提出了一种定期更新的确定性策略梯度算法。该方法抛弃了传统学习范式中边探索边利用的学习模式,使用集中探索集中采样更新的方式从样本中学习。本文首先从理论上指出了原有训练范式下对新经验的使用不足以及对旧经验的过度使用,然后从理论上证明了采用定期更新的确定性策略梯度算法的学习流程比传统范式能更好地利用经验池中的新数据。另外,定期更新的确定性策略梯度算法中值的方差较小,更适合目前的折叠式双学习策略。本文设计了与基准方法的对比实验、与原确定性策略梯度算法的消融实验以及Mujoco环境下的其它分析实验。实验结果验证了定期更新的确定性策略梯度算法的有效性和优越性。深度伪确定性策略梯度的熵正则化方法通过正则化噪声参数的方式改善了确定性策略梯度算法的探索能力的同时,维持了确定性策略输出的稳定性。定期更新的确定性策略梯度算法通过改变确定性策略梯度算法的学习流程增强了其数据利用的能力,并且其集中探索集中采样更新的学习模式更适合折叠式双学习策略。这两种方法都能使确定性策略梯度算法在环境中取得更优异的表现。

关键词：机器学习强化学习深度强化学习确定性策略梯度参数空间探索数据利用熵正则化

来源：评论

学校读者我要写书评

暂无评论

基于连续控制任务的确定性策略梯度算法研究

基于连续控制任务的确定性策略梯度算法研究

引用

作者：王振宇哈尔滨理工大学

学位级别：硕士

无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。强化学习虽然已经在一系列具有挑战性的决策和控制任务上得到了长足的发展,但是连续控制任务下的深度强... 详细信息

无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。强化学习虽然已经在一系列具有挑战性的决策和控制任务上得到了长足的发展,但是连续控制任务下的深度强化学习的研究还是处于初级阶段,这些算法仍存在着一些问题和挑战,比如维度爆炸、随机环境下泛化能力差、样本数据使用效率低、脆弱的收敛特性和极易陷入局部最优策略。这些问题导致多数模型需要细致的超参数调优,严重限制了深度强化学习方法在复杂现实领域的适用性。在连续动作空间的行动者（Actor）-评论家（Critic）深度强化学习算法中,最先进的双延迟深度确定性策略梯度（TD3）算法缓解了深度确定性策略梯度（DDPG）算法中的过高估计问题,但它可能会导致某些动作严重被低估,TD3维护的这个下界远非真实的Q函数,从而会干扰行动者向最优动作收敛,多次选择次优动作导致行动者难以探索上界,同时也存在样本利用效率过低的问题。本文针对这些问题,对现有的确定性策略梯度算法进行改进,并提出了新的算法。本文的主要工作和研究成果包含以下几个方面:首先,对于连续控制问题,提出了一种对评论家网络平滑的方法。由于连续控制的动作空间是无限大的,我们每次却只能执行一个确定的动作,每次只根据这一个动作和回报对网络进行梯度更新,导致评论家网络产生很多的极点。针对此问题,本文认为理想情况下评论家函数应该是平滑连续的,提出了一种对评论家网络的目标函数平滑的方法,降低了行动者网络的收敛难度,提高了样本利用效率。为了验证新方法的效果,我们通过改进DPG、DDPG算法在Open AI开源的简单双足机器人环境下进行了实验,实验结果表明平滑后的算法收敛速度得到了提升。其次,针对值函数影响最优策略上限的问题,本文通过三种不同的思想提出三种平滑函数,1.两极分化思想:我们认为在行动者-评论家框架中,评论家对动作之间折扣累计估值的排序与真实的折扣累计值的排序一致性很重要,通过把动作估值差距拉大,使误差不足以影响关键动作之间的排序。2.保守思想:我们认为提升某一动作范围内的估值下限会使模型更加健壮。3.熵值思想:从估值准确性来看,估值高的动作熵值较低,估值低的动作熵值较高,所以低熵动作置信度更高,占的权重也高。在本文中,我们将三种不同的平滑方式应用到DDPG和TD3中,分别在两种环境下进行测试,实验表明本文提出的三种平滑函数可以提升最优策略的上限,但也会增加模型收敛不稳定的概率。然后,针对模型不稳定问题,我们发现训练中的行动者稳健性与模型的收敛能力成正相关,行动者陷入局部最优和评论家网络波动过快都会影响学习效果。针对此问题,本文提出了采用双行动者-双评论家架构、延迟更新的算法,降低了行动者陷入局部最优的概率,降低了评论家网络更新速率使行动者可以得到稳定的收敛。为了验证算法的有效性,我们在Open AI开源项目gym中的困难双足机器人环境下进行了大量试验,通过单行动者-双行动者对比试验,验证了双行动者可以使模型的收敛更加健壮,明显减少模型的“雪崩”现象。最后我们将几种方法融合得到的新算法——平滑的双延迟双网络深度确定性策略梯度强化学习算法,与多个最先进的深度确定性策略梯度强化学习算法进行了对比,表明提出的新算法的部分性能优于最先进的算法。

关键词：深度强化学习连续控制任务行动者-评论家平滑确定性策略梯度

来源：评论

学校读者我要写书评

暂无评论

基于确定性策略梯度深度强化学习的机器人轨迹规划研究

基于确定性策略梯度深度强化学习的机器人轨迹规划研究

引用

作者：应丰糠东华大学

学位级别：硕士

传统的机器人运动控制依赖于针对具体对象的定制化逆运动学求解和轨迹规划,该过程需要人力的高度参与且缺乏通用性。尤其是当面向带有冗余自由度的机器人时,该过程异常复杂。近年来,深度强化学习在图像处理、语义理解和语音识别等多个... 详细信息

传统的机器人运动控制依赖于针对具体对象的定制化逆运动学求解和轨迹规划,该过程需要人力的高度参与且缺乏通用性。尤其是当面向带有冗余自由度的机器人时,该过程异常复杂。近年来,深度强化学习在图像处理、语义理解和语音识别等多个领域带来的变革性影响,极大地激发了研究人员们将其拓展到机器人技术领域的兴趣,期望能够通过深度强化学习策略使机器人像人类一样自主学习和优化完成各类任务的技巧。本文将深度强化学习策略应用到机器人运动控制任务当中,使得机器人运动轨迹的生成不再依赖于传统的逆运动学求解方法,并能针对不同的任务自主规划最优运动轨迹。主要工作如下:(1)针对由于仿真环境与实际环境的差异性导致算法需要实物训练、策略迁移、安全约束等冗繁工作的问题,引入数字孪生技术的理念,搭建了1:1还原机器人实物对象运动学的虚拟孪生系统。该虚拟孪生系统使得仿真环境中的训练结果能直接应用于实物机器人对象的运动轨迹生成。(2)为提高深度强化学习算法的学习效率和收敛速度,提出了两种双记忆库结构改进方法。在第一种方法中,设计了一种local-to-global采样策略,在训练前期利用高奖励数据激励智能体的策略学习;在第二种方法中,构建了一种专家引导的策略学习模式,为算法早期训练提供额外的高质量数据促进学习效率。(3)一个完整的机器人运动控制任务传统上通常规划为多个连续的子任务,以提升避障的灵活性或动作的流畅性等。这一处理方式为擅长于单一过程的深度强化学习策略的实施带来不小的挑战。本文针对该类在时序上具有先后顺序的连续多过程任务,提出了一种嵌套式结构的深度强化学习框架。(4)为全方位提升深度强化学习算法的训练效果,提出了两种针对奖励函数的改进方法。在第一种方法中,针对轨迹规划中对机器人末端执行器位置和姿态的同步控制需求,设计了一种可平衡位置和姿态控制权重的复合式奖励系统;在第二种方法中,针对难以人为地构建理想显式奖励函数的问题,设计了一种模糊反馈奖励机制。该机制通过模糊推理避免了构造显式奖励函数,并采用多层感知机建立了从状态到奖励的准确且高效的直接映射。(5)针对基于确定性策略梯度的算法在动作探索性上存在不足的问题,提出了一种带延展性探索与评估功能的确定性策略梯度深度强化学习算法。该算法相比基于随机策略梯度的算法,具有更低的样本规模需求,更小的计算资源开销,但又具备能匹敌随机策略梯度的强大的探索性能。此外,在上述工作中还开展了大量的具有针对性的对比实验,实验结果证明了所提出方法的可行性、有效性和优越性。

关键词：机器人轨迹规划深度强化学习确定性策略梯度延展性探索与评估嵌套式结构奖励系统双记忆库

来源：评论

学校读者我要写书评

暂无评论

渐进式深度确定性策略梯度算法的改进与研究

渐进式深度确定性策略梯度算法的改进与研究

引用

作者：吴光军苏州大学

学位级别：硕士

近些年来,将深度学习与强化学习相结合的深度强化学习在人工智能领域取得了令人瞩目的成就。深度强化学习方法利用深度神经网络强大的表征能力的同时,也使用了强化学习算法的自主决策能力,在多个学习领域中都展现出较强的通用性并取得... 详细信息

近些年来,将深度学习与强化学习相结合的深度强化学习在人工智能领域取得了令人瞩目的成就。深度强化学习方法利用深度神经网络强大的表征能力的同时,也使用了强化学习算法的自主决策能力,在多个学习领域中都展现出较强的通用性并取得了不错的效果。连续控制类任务是一大类热门的研究领域,在深度强化学习算法中通常采用基于确定性策略梯度与行动者-评论家架构的深度确定性策略梯度算法。在面对大型状态空间任务时,深度确定性策略梯度算法中的单个行动者网络难以应对,以及存在探索盲目和最大化偏差等问题。本文对深度确定性策略算法进行了以下三个方面的研究。(1)深度确定性策略梯度算法中使用的单个行动者网络难以应对复杂的状态空间,使行动者网络学习会受不同状态的影响。针对该问题,提出了一种基于K-means聚类的渐进式多行动者深度确定性策略梯度算法。该算法在训练过程中,对于每一时间步下的当前状态,在选择动作时,依据K-means判别结果进而选择对应的行动者网络。同时为了增加算法的有效性,采用随着训练时间步的增加,逐渐增加K-means类簇的个数和行动者网络个数的方式。将该算法应用于Mujoco仿真平台上,实验结果表明,算法在大多数连续控制任务中具有良好的效果。(2)深度确定性策略梯度算法对于一些简单的连续动作空间任务有着不错的效果,但当任务的状态空间趋于复杂时,单个的行动者网络难以应对,同时存在采用非最优动作和灾难性遗忘等问题。虽然上述(1)算法能有效解决该类问题,但是在(1)算法中,K-means聚类和判别等操作的时间复杂度和训练成本较大。大量实验结果表明,大部分连续动作空间任务的状态空间在训练时满足状态与训练时间步同步变化。利用该思想,在上述(1)的基础上,用时间步来替换K-means聚类、判别等操作,可以有效地减少时间复杂度。此外通过添加优秀经验来指导动作的选取,避免探索盲目问题。结合两者提出了一种基于经验指导的渐进式多行动者深度确定性策略梯度算法。实验结果表明,算法在较低时间复杂度同时,效果也十分优秀。(3)分类经验回放方法可以解决深度确定性策略梯度算法中经验样本利用不充分以及随机采样等问题。分类经验回放方法通过先将经验样本与分类标准比较,然后根据比较结果将经验样本存储到相应的经验缓冲池,然后在训练时根据需要从不同经验缓冲池提取不同比例的经验样本用以训练。该方法可以使经验样本得到充分使用。同时由于分类存储,不同经验样本间相关性也被减弱。然而分类经验回放方法固定了经验池个数,在训练初期每个经验池由于经验分类,导致单个经验池内的经验数量增长缓慢,难以有效地利用经验训练。针对该类问题,将分类经验回放方法与渐进式的方法结合提出了基于渐进式分类经验回放的深度确定性策略梯度算法。该算法相较于单纯的分类经验回放方法,在大多数连续控制任务中实验结果表明,具有更好的效果。

关键词：强化学习深度强化学习经验指导分类经验回放确定性策略梯度

来源：评论

学校读者我要写书评

暂无评论

跨传感器异步迁移学习的室内单目无人机避障

引用

宇航学报 2020年第6期41卷 811-819页

作者：李湛薛喜地杨学博孙维超于兴虎高会军哈尔滨工业大学智能控制与系统研究所哈尔滨工业大学宁波智能装备研究院哈尔滨工业大学机器人技术与系统国家重点实验室

针对强化学习策略由仿真环境向实际迁移困难的问题,以提高无人机采用无深度信息单目视觉时的行人规避能力为目标,提出一种基于异步深度神经网络结构的跨传感器迁移学习方法。首先,在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过基... 详细信息

针对强化学习策略由仿真环境向实际迁移困难的问题,以提高无人机采用无深度信息单目视觉时的行人规避能力为目标,提出一种基于异步深度神经网络结构的跨传感器迁移学习方法。首先,在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过基于确定性策略梯度(DDPG)的深度强化学习方法,训练得到一个稳定的初级避障策略。其次,用单目摄像头和激光雷达同步采集现实环境中的视觉和深度数据集并逐帧绑定,使用上述初级避障策略对现实数据集进行自动标注,进而训练得到无需激光雷达数据的单目视觉避障策略,实现从虚拟激光雷达到现实单目视觉的跨传感器迁移学习。最后,引入YOLO v3-tiny网络与Resnet18网络组成异步深度神经网络结构,有效提高了存在行人场景下的避障性能。

关键词：单目视觉深度强化学习确定性策略梯度跨传感器迁移学习异步深度神经网络

来源：评论

学校读者我要写书评

暂无评论

基于TS-TD3的动态环境端到端无地图导航方法

引用

机器人 2023年第6期45卷 655-669页

作者：姜杨曾铁文万东东吴成东东北大学机器人科学与工程学院辽宁沈阳110169

针对基于地图的移动机器人导航框架部署在动态复杂环境时出现的问题,提出一种基于时序-双延迟深度确定性策略梯度(TS-TD3)的无地图导航方法。首先,将动态场景(具有环境部分可观测性)的导航任务定义为部分可观测马尔可夫决策过程(POMDP)... 详细信息

针对基于地图的移动机器人导航框架部署在动态复杂环境时出现的问题,提出一种基于时序-双延迟深度确定性策略梯度(TS-TD3)的无地图导航方法。首先,将动态场景(具有环境部分可观测性)的导航任务定义为部分可观测马尔可夫决策过程(POMDP)。其次,引入经过长短期记忆组件处理的历史信息作为模型的输入,为策略网络的确定性策略梯度引入历史信息基准,以处理隐藏在环境观测集合中的状态信息,将关注导航动作时序关联性的评价标准引入评价网络。再次,通过专家经验网络在训练前期指导策略网络的输出,以规范导航动作。最后,建立演员-评论家框架的深度强化学习(DRL)端到端模型,根据传感器感知结果直接输出控制动作。与主流DRL方法进行对比实验,在仿真实验中,该方法运动轨迹自然、稳定、具有连续性,能处理多动态障碍物交汇情况,整体导航效果表现最优;在真实动态环境的测试中,模型未作调整直接部署在未知环境中,模型的导航效果和泛化性得到验证。

关键词：深度强化学习部分可观测马尔可夫决策过程确定性策略梯度动态环境无地图导航

来源：评论

学校读者我要写书评

暂无评论

旋翼无人机在移动平台降落的控制参数自学习调节方法

引用

智能系统学报 2022年第5期17卷 931-940页

作者：张鹏鹏魏长赟张恺睿欧阳勇平河海大学机电工程学院江苏常州213022

无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将无人机迅速稳定地降落至移动平台上是一... 详细信息

无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正纠偏COACH(corrective advice communicated humans)方法的深度强化学习比例积分微分(proportional-integral-derivative,PID)方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学习模型进行训练,然后在仿真环境和真实环境中,使用训练后的模型输出控制参数,最后利用输出参数获得无人机位置控制量。仿真结果和真实无人机实验表明,基于矫正纠偏COACH方法的深度强化学习PID方法优于传统控制方法,且能稳定完成在移动平台上的降落任务。

关键词：自主降落强化学习路径规划 COACH框架确定性策略梯度空地协同无人机最优控制

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的流媒体边缘云会话调度策略

引用

计算机工程 2019年第5期45卷 237-242,248页

作者：徐西建王子磊奚宏生中国科学技术大学自动化系合肥230027

在流媒体边缘云资源调度中,传统启发式方法或规划方法多数存在自适应性不足、时间复杂度高等问题。基于迁移代价、负载均衡等约束,提出一种流媒体边缘云会话调度策略。以流媒体边缘云系统的状态信息作为属性特征,结合深度学习与确定性... 详细信息

在流媒体边缘云资源调度中,传统启发式方法或规划方法多数存在自适应性不足、时间复杂度高等问题。基于迁移代价、负载均衡等约束,提出一种流媒体边缘云会话调度策略。以流媒体边缘云系统的状态信息作为属性特征,结合深度学习与确定性策略进行梯度强化学习,以解决用户请求接入问题。实验结果表明,该策略具有较好的请求接入效果,且能够降低迁移代价,同时缩短了运行时间。

关键词：流媒体边缘云会话调度会话迁移深度学习强化学习确定性策略梯度

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：