检索结果-内蒙古大学图书馆

中国科学:技术科学 2025年

作者：张志冰王家兴袁婷慧航空工业沈阳飞机设计研究所南京航空航天大学自动化学院

为保证舰载机着舰复飞安全,本文提出一种基于PER-SAC的舰载机着舰复飞操纵策略.考虑到舰载机在航母不同距离处的复飞风险差异较大,通过改进安全复飞准则优化了复飞边界.将军用推力与升降舵操纵相结合,提出了一种基于软行动者-评论家(sof... 详细信息

为保证舰载机着舰复飞安全,本文提出一种基于PER-SAC的舰载机着舰复飞操纵策略.考虑到舰载机在航母不同距离处的复飞风险差异较大,通过改进安全复飞准则优化了复飞边界.将军用推力与升降舵操纵相结合,提出了一种基于软行动者-评论家(soft actor-critic, SAC)强化学习算法的复飞操纵策略,考虑复飞指标和软状态约束设计了一种引导型奖励函数,提升了智能体的探索效率;针对SAC算法采样效率低的问题,引入优先经验重放(prioritized experience replay, PER)技术提出PER-SAC算法,加快了SAC的收敛速度.仿真结果表明,本文设计的复飞策略能显著缩小复飞风险区,提高复飞安全性.

关键词：舰载机复飞边界复飞操纵软行动者-评论家强化学习优先经验重放

来源：评论

学校读者我要写书评

暂无评论

基于动作约束深度强化学习的安全自动驾驶方法

引用

计算机科学 2021年第9期48卷 235-243页

作者：代珊珊刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探... 详细信息

随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习失败。针对该问题,提出了一种基于动作约束的软行动者-评论家算法(Constrained Soft Actor-critic,CSAC),该方法首先对环境奖赏进行了合理限制。无人车动作转角过大时会产生抖动,因此在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态。另外,CSAC方法又对智能体的动作进行了约束。当目前状态选择动作后使无人车偏离轨道或者发生碰撞时,标记该动作为约束动作,在之后的训练中通过合理约束来更好地指导无人车选择新动作。为了体现CSAC方法的优势,将CSAC方法应用在自动驾驶车道保持任务中,并与SAC算法进行对比。结果表明,引入安全机制的CSAC方法可以有效避开不安全动作,提高自动驾驶过程中的稳定性,同时还加快了模型的训练速度。最后,将训练好的模型移植到带有树莓派的无人车上,进一步验证了模型的泛用性。

关键词：安全自动驾驶深度强化学习软行动者-评论家车道保持无人车

来源：评论

学校读者我要写书评

暂无评论

基于EFRE-SAC的无人机自主避障策略

引用

计算机系统应用 2025年第6期 53-61页

作者：刘萌月时宏伟四川大学计算机学院

在无人机自主避障任务中,传统强化学习算法往往面临状态空间高维、信息稀疏以及探索效率低下等挑战.现有的SAC (soft Actor-Critic)算法虽然具备较强的稳定性和样本效率,但在复杂环境下的表现仍显不足.为此,本文提出了一种基于注意力机... 详细信息

在无人机自主避障任务中,传统强化学习算法往往面临状态空间高维、信息稀疏以及探索效率低下等挑战.现有的SAC (soft Actor-Critic)算法虽然具备较强的稳定性和样本效率,但在复杂环境下的表现仍显不足.为此,本文提出了一种基于注意力机制SE和随机网络蒸馏RND模块改进的SAC算法,旨在提升无人机在三维地形环境中的自主避障能力.注意力机制SE通过自适应调整特征图的通道权重,增强了模型对重要信息的关注能力,从而提升了特征表达的有效性;而改进的RND网络则通过生成对抗目标,鼓励探索新环境,丰富了样本的多样性和改善了收集效率.基于上述的SE和RND,我们构建了一个增强特征表达和探索的SAC (EFRE-SAC)框架,使得无人机能够更有效地从深度图像中学习环境特征,并在三维环境中快速适应.在AirSim+UE4仿真平台的实验结果表明,所提出的改进方法显著提高了无人机的避障成功率和训练效率,验证了改进的SE和RND模块在强化学习任务中的有效性.

关键词：无人机避障软行动者-评论家随机网络蒸馏注意力机制

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：