检索结果-内蒙古大学图书馆

计算机科学 2024年第2期51卷 252-258页

作者：栗军伟刘全徐亚鹏苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Crit... 详细信息

时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Critic(OC)框架在Option框架的基础上,通过策略梯度理论,可以有效解决此问题。然而,在策略学习过程中,OC框架会出现Option内部策略动作分布变得十分相似的退化问题。该退化问题影响了OC框架的实验性能,导致Option的可解释性变差。为了解决上述问题,引入互信息知识作为内部奖励,并提出基于互信息优化的Option-Critic算法(Option-Critic Algorithm with Mutual Information Optimization,MIOOC)。MIOOC算法结合了近端策略Option-Critic(Proximal Policy Option-Critic,PPOC)算法,可以保证下层策略的多样性。为了验证算法的有效性,把MIOOC算法和几种常见的强化学习方法在连续实验环境中进行对比实验。实验结果表明,MIOOC算法可以加快模型学习速度,实验性能更优,Option内部策略更有区分度。

关键词：深度强化学习时序抽象分层强化学习互信息内部奖励 Option多样性

来源：评论

学校读者我要写书评

暂无评论

多通道Laplacian矩阵融合的超图直推学习模型

引用

小型微型计算机系统 2023年第11期44卷 2566-2575页

作者：徐良奎杨哲吴国荣赵雷苏州大学计算机科学与技术学院江苏苏州215006 江苏省计算机信息处理技术重点实验室江苏苏州215006 江苏省大数据智能工程实验室江苏苏州215006 高等计算医学实验室北卡罗来纳大学教堂山分校美国教堂山NC 27599

超图直推学习模型是机器学习领域研究热点.超图模型的性能取决于构造的超图结构及其Laplacian矩阵的质量.现有超图模型基于单一超图结构,信息表达能力有限.本文提出超图结构扩张法,将异构超图的关联矩阵和权重矩阵拼接,融合更多的顶点... 详细信息

超图直推学习模型是机器学习领域研究热点.超图模型的性能取决于构造的超图结构及其Laplacian矩阵的质量.现有超图模型基于单一超图结构,信息表达能力有限.本文提出超图结构扩张法,将异构超图的关联矩阵和权重矩阵拼接,融合更多的顶点间全局高阶信息,增加Markov随机游走的扩散范围.但这会导致矩阵维度高,计算开销大.因此进一步提出多通道Laplacian矩阵融合法,用多个通道计算异构超图结构各自的Laplacian矩阵,再加权累加.在4个数据集上的实验表明,两种方法都能提高超图直推学习模型的分类性能,且Laplacian矩阵融合法比结构扩张法平均节约40%左右时间成本,F1指标最高提升8.4%.

关键词：超图直推学习超图结构扩张超图Laplacian矩阵多通道Laplacian矩阵融合

来源：评论

学校读者我要写书评

暂无评论

基于相似度约束的双策略蒸馏深度强化学习方法

引用

计算机科学 2023年第1期50卷 253-261页

作者：徐平安刘全苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量... 详细信息

策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量的计算资源,因此双策略蒸馏框架(Dual Policy Distillation,DPD)被提出,其不再依赖于教师策略,而是维护两个学生策略互相进行知识迁移。然而,若其中一个学生策略无法通过自我学习超越另一个学生策略,或者两个学生策略在蒸馏后趋于一致,则结合DPD的深度强化学习算法会退化为单一策略的梯度优化方法。针对上述问题,给出了学生策略之间相似度的概念,并提出了基于相似度约束的双策略蒸馏框架(Similarity Constrained Dual Policy Distillation,SCDPD)。该框架在知识迁移的过程中,动态地调整两个学生策略间的相似度,从理论上证明了其能够有效提升学生策略的探索性以及算法的稳定性。实验结果表明,将SCDPD与经典的异策略和同策略深度强化学习算法结合的SCDPD-SAC算法和SCDPD-PPO算法,在多个连续控制任务上,相比经典算法具有更好的性能表现。

关键词：深度强化学习策略蒸馏相似度约束知识迁移连续控制任务

来源：评论

学校读者我要写书评

暂无评论

基于情节经验回放的深度确定性策略梯度方法

引用

计算机科学 2021年第10期48卷 37-43页

作者：张建行刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效... 详细信息

强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储。然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量。在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Optimization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较。实验结果表明,EER-DDPG方法有更好的性能表现。

关键词：深度确定性策略梯度连续控制任务经验回放累积回报分类经验回放

来源：评论

学校读者我要写书评

暂无评论

基于随机加权三重Q学习的异策略最大熵强化学习算法

引用

计算机科学 2022年第6期49卷 335-341页

作者：范静宇刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家... 详细信息

强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。

关键词： Q学习深度学习异策略强化学习连续动作空间最大熵软行动者—评论家算法

来源：评论

学校读者我要写书评

暂无评论

基于最小二乘的双权重学习法

引用

计算机科学 2020年第12期47卷 210-217页

作者：李斌刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012

强化学习是人工智能领域中的一个研究热点。在求解强化学习问题时,传统的最小二乘法作为一类特殊的函数逼近学习方法,具有收敛速度快、充分利用样本数据的优势。通过对最小二乘时序差分算法(Least-Squares Temporal Difference,LSTD)的... 详细信息

强化学习是人工智能领域中的一个研究热点。在求解强化学习问题时,传统的最小二乘法作为一类特殊的函数逼近学习方法,具有收敛速度快、充分利用样本数据的优势。通过对最小二乘时序差分算法(Least-Squares Temporal Difference,LSTD)的研究与分析,并以该方法为基础提出了双权重最小二乘Sarsa算法(Double Weights With Least Squares Sarsa,DWLS-Sarsa)。DWLS-Sarsa算法将两权重通过一定方式进行关联得到目标权重,并利用Sarsa方法对时序差分误差进行控制。在算法训练过程中,两权重会因为更新样本的不同而产生不同的值,保证了算法可以有效地进行探索;两权重也会因为样本数据的分布而逐渐缩小之间的差距直到收敛至同一最优值,确保了算法的收敛性能。最后将DWLS-Sarsa算法与其他强化学习算法进行实验对比,结果表明DWLS-Sarsa算法具有较优的学习性能与鲁棒性,可以有效地处理局部最优问题并提高算法收敛时的表现效果。

关键词：强化学习函数逼近最小二乘时序差分 Sarsa

来源：评论

学校读者我要写书评

暂无评论

纵横网上教学系统的设计和实现

引用

苏州大学学报（自然科学版） 2000年第2期16卷 31-38页

作者：鲁征山李培峰朱巧明江苏省计算机信息处理技术重点实验室苏州大学工学院计算机工程系江苏苏州215006

首先阐述了开发纵横网上教学系统的背景、开发环境及相关的技术 ;然后介绍了此系统的设计思想 ;最后以其中的纵横码测试部分为例。

关键词： Web 数据库 IDC 网上教学系统设计 Internet

来源：评论

学校读者我要写书评

暂无评论

基于视觉注意力机制的异步优势行动者-评论家算法

引用

计算机科学 2019年第5期46卷 169-174页

作者：李杰凌兴宏伏玉琛刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 详细信息

异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。

关键词：异步深度强化学习视觉注意力机制行动者-评论家异步优势行动者-评论家

来源：评论

学校读者我要写书评

暂无评论

一种快速收敛的最大置信上界探索方法

引用

计算机科学 2022年第1期49卷 298-305页

作者：敖天宇刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper... 详细信息

深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper Confidence Bound Exploration with Fast Convergence,FAST-UCB)方法。该方法使用UCB算法探索大状态空间,提高探索效率。为缓解Q值高估的问题、平衡探索与利用关系,加入了Q值截断技巧。之后,为平衡算法偏差与方差,使智能体(agent)快速学习,在网络模型中加入长短时记忆(Long Short Term Memory,LSTM)单元,同时使用一种改进混合蒙特卡洛(Mixed Monte Carlo,MMC)方法计算网络误差。最后,将FAST-UCB应用到深度Q网络(Deep Q Network,DQN),在控制类环境中将其与ε-贪心(ε-greedy)、UCB算法进行对比,以验证其有效性。在雅达利(Atari)2600环境中将其与噪声网络(Noisy-Network)探索、自举(Bootstrapped)探索、异步优势行动者评论家(Asynchronous Advantage Actor Critic,A3C)算法和近端策略优化(Proximal Policy Optimization,PPO)算法进行对比,以验证其泛化性。实验结果表明,FAST-UCB算法在这两类环境中均能取得优秀效果。

关键词：探索最大置信上界长短时记忆混合蒙特卡洛 Q值截断

来源：评论

学校读者我要写书评

暂无评论

基于自指导动作选择的近端策略优化算法

引用

计算机科学 2021年第12期48卷 297-303页

作者：申怡刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现。近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算... 详细信息

强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现。近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算法,样本利用率较低。针对该问题,提出了一种基于自指导动作选择的近端策略优化算法(Proximal Policy Optimization Based on Self-Directed Action Selection,SDAS-PPO)。SDAS-PPO算法不仅根据重要性采样权重对样本经验进行利用,而且增加了一个同步更新的经验池来存放自身的优秀样本经验,并利用该经验池学习到的自指导网络对动作的选择进行指导。SDAS-PPO算法大大提高了样本利用率,并保证训练网络模型时智能体能快速有效地学习。为了验证SDAS-PPO算法的有效性,将SDAS-PPO算法与TRPO算法、PPO算法和PPO-AMBER算法用于连续型控制任务Mujoco仿真平台中进行比较实验。实验结果表明,该方法在绝大多数环境下具有更好的表现。

关键词：强化学习深度强化学习策略梯度近端策略优化自指导

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：