检索结果-内蒙古大学图书馆

计算机科学 2022年第1期49卷 298-305页

作者：敖天宇刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper... 详细信息

深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper Confidence Bound Exploration with Fast Convergence,FAST-UCB)方法。该方法使用UCB算法探索大状态空间,提高探索效率。为缓解Q值高估的问题、平衡探索与利用关系,加入了Q值截断技巧。之后,为平衡算法偏差与方差,使智能体(agent)快速学习,在网络模型中加入长短时记忆(Long Short Term Memory,LSTM)单元,同时使用一种改进混合蒙特卡洛(Mixed Monte Carlo,MMC)方法计算网络误差。最后,将FAST-UCB应用到深度Q网络(Deep Q Network,DQN),在控制类环境中将其与ε-贪心(ε-greedy)、UCB算法进行对比,以验证其有效性。在雅达利(Atari)2600环境中将其与噪声网络(Noisy-Network)探索、自举(Bootstrapped)探索、异步优势行动者评论家(Asynchronous Advantage Actor Critic,A3C)算法和近端策略优化(Proximal Policy Optimization,PPO)算法进行对比,以验证其泛化性。实验结果表明,FAST-UCB算法在这两类环境中均能取得优秀效果。

关键词：探索最大置信上界长短时记忆混合蒙特卡洛 Q值截断

来源：评论

学校读者我要写书评

暂无评论

一类数据中心网络中顶点独立生成树的一种通用构造方法

引用

计算机应用研究 2021年第7期38卷 2130-2134页

作者：钱煜程宝雷樊建席卞庆荣王懿丰肖义胜苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

数据中心网络设计的新趋势是在互连网络的顶点和边上分别部署交换机和双端口服务器,其逻辑图可以抽象为复合图。顶点独立生成树(node-independent spanning trees,NIST)是数据中心网络中的一种重要结构,可用于设计数据中心网络中的可靠... 详细信息

数据中心网络设计的新趋势是在互连网络的顶点和边上分别部署交换机和双端口服务器,其逻辑图可以抽象为复合图。顶点独立生成树(node-independent spanning trees,NIST)是数据中心网络中的一种重要结构,可用于设计数据中心网络中的可靠通信协议,容错广播和安全消息分发,IP快速重路由等。给定一个复合图G(Kn),首先表明,如果图G的直径为d,则复合图G(Kn)的直径为2d或2d+1。假设n-正则、n-顶点连通的互连网络G中存在以任一顶点为根的n棵NIST,通过提出一种时间复杂度O(N)的高效算法(其中N是顶点数),给出了G(Kn)中一种构造n棵NIST的通用方法。对复合图Qn(Kn)的顶点分析表明,NIST的最大高度仅为其直径加3。另外,基于增广立方体的数据中心网络上的模拟实验也从另一个方面证明了上述结论的正确性。

关键词：数据中心网络顶点独立生成树复合图直径时间复杂度

来源：评论

学校读者我要写书评

暂无评论

基于元数据逻辑无关片断的结构完整性检测方法

引用

计算机研究与发展 2020年第9期57卷 1961-1970页

作者：赵晓非史忠植刘建伟天津工业大学计算机科学与技术学院天津300387 江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州215006 中国科学院计算技术研究所智能信息处理重点实验室北京100190

高效地执行结构完整性检测是基于元对象设施(meta object facility,MOF)的存储库系统一致性领域的研究热点之一.借助逻辑学手段,提出了一种高效、自动地检测结构完整性的方法.首先针对MOF存储库框架的特点研究了如何将元数据的不同层次... 详细信息

高效地执行结构完整性检测是基于元对象设施(meta object facility,MOF)的存储库系统一致性领域的研究热点之一.借助逻辑学手段,提出了一种高效、自动地检测结构完整性的方法.首先针对MOF存储库框架的特点研究了如何将元数据的不同层次转换进描述逻辑SROIQ(D)知识库,在此基础上研究了如何对元数据进行抽取以提高检测过程的效率.提出了元数据逻辑无关片断的概念,通过分别抽取属性演绎片断和类属演绎片断,给出了生成最小逻辑无关片断的方法.由于该种片断是给定的元数据元素逻辑蕴含的闭包,因此完整地保留了给定元数据元素的相关全部信息从而使得检测可以在较小的元数据集上进行,而不必针对整个存储库,最后给出了基于逻辑无关片断的结构完整性检测方法.实验结果表明所产生的元数据片断的平均规模显著地小于其原始规模,在此基础上执行的检测的效率提升从1.47~3.31倍不等,与相关方法的时间性能对比亦展示了所提出方法的有效性.

关键词：逻辑无关片断结构完整性存储库系统元对象设施元数据

来源：评论

学校读者我要写书评

暂无评论

面向事件时序与因果关系的联合识别方法

引用

计算机工程 2020年第7期46卷 65-71页

作者：张义杰李培峰朱巧明苏州大学计算机科学与技术学院江苏苏州215006 江苏省计算机信息处理技术重点实验室江苏苏州215006

从事件时序关系与因果关系的关联性出发,提出基于神经网络的联合识别方法。将时序关系和因果关系识别分别作为主任务和辅助任务,设计共享辅助任务中编码层、解码层和编解码层的3种联合识别模型,通过主任务模型和辅助任务模型中的网络层... 详细信息

从事件时序关系与因果关系的关联性出发,提出基于神经网络的联合识别方法。将时序关系和因果关系识别分别作为主任务和辅助任务,设计共享辅助任务中编码层、解码层和编解码层的3种联合识别模型,通过主任务模型和辅助任务模型中的网络层进行信息共享,学习联合识别模型之间的特征信息。实验结果表明,联合识别方法能利用事件之间的因果信息有效提升时序关系的识别性能,且共享辅助任务中编解码层的联合识别模型更适用于事件时序关系与因果关系的联合识别。

关键词：事件时序关系因果关系神经网络联合识别

来源：评论

学校读者我要写书评

暂无评论

带最大熵修正的行动者评论家算法

引用

计算机学报 2020年第10期43卷 1897-1908页

作者：姜玉斌刘全胡智慧苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大... 详细信息

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性.

关键词：强化学习深度学习行动者评论家算法最大熵策略梯度

来源：评论

学校读者我要写书评

暂无评论

基于情节经验回放的深度确定性策略梯度方法

引用

计算机科学 2021年第10期48卷 37-43页

作者：张建行刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效... 详细信息

强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储。然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量。在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Optimization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较。实验结果表明,EER-DDPG方法有更好的性能表现。

关键词：深度确定性策略梯度连续控制任务经验回放累积回报分类经验回放

来源：评论

学校读者我要写书评

暂无评论

基于自指导动作选择的近端策略优化算法

引用

计算机科学 2021年第12期48卷 297-303页

作者：申怡刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现。近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算... 详细信息

强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现。近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算法,样本利用率较低。针对该问题,提出了一种基于自指导动作选择的近端策略优化算法(Proximal Policy Optimization Based on Self-Directed Action Selection,SDAS-PPO)。SDAS-PPO算法不仅根据重要性采样权重对样本经验进行利用,而且增加了一个同步更新的经验池来存放自身的优秀样本经验,并利用该经验池学习到的自指导网络对动作的选择进行指导。SDAS-PPO算法大大提高了样本利用率,并保证训练网络模型时智能体能快速有效地学习。为了验证SDAS-PPO算法的有效性,将SDAS-PPO算法与TRPO算法、PPO算法和PPO-AMBER算法用于连续型控制任务Mujoco仿真平台中进行比较实验。实验结果表明,该方法在绝大多数环境下具有更好的表现。

关键词：强化学习深度强化学习策略梯度近端策略优化自指导

来源：评论

学校读者我要写书评

暂无评论

基于动作约束深度强化学习的安全自动驾驶方法

引用

计算机科学 2021年第9期48卷 235-243页

作者：代珊珊刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探... 详细信息

随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习失败。针对该问题,提出了一种基于动作约束的软行动者-评论家算法(Constrained Soft Actor-critic,CSAC),该方法首先对环境奖赏进行了合理限制。无人车动作转角过大时会产生抖动,因此在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态。另外,CSAC方法又对智能体的动作进行了约束。当目前状态选择动作后使无人车偏离轨道或者发生碰撞时,标记该动作为约束动作,在之后的训练中通过合理约束来更好地指导无人车选择新动作。为了体现CSAC方法的优势,将CSAC方法应用在自动驾驶车道保持任务中,并与SAC算法进行对比。结果表明,引入安全机制的CSAC方法可以有效避开不安全动作,提高自动驾驶过程中的稳定性,同时还加快了模型的训练速度。最后,将训练好的模型移植到带有树莓派的无人车上,进一步验证了模型的泛用性。

关键词：安全自动驾驶深度强化学习软行动者-评论家车道保持无人车

来源：评论

学校读者我要写书评

暂无评论

基于多尺度递归密集网络的单图像超分辨率算法

引用

山西大学学报(自然科学版) 2020年第4期43卷 719-726页

作者：徐石张莉季家欢苏州大学计算机科学与技术学院苏州大学江苏省计算机信息处理技术重点实验室

深度神经网络可以极大地提高单图像超分辨率的质量,盲目地增加网络的深度不能有效地改善网络。文章针对单图像超分辨率任务提出了一种新颖的深度多尺度递归密集网络(multi-scale recursive dense network,MSRDN),首先构造一个浅层特征... 详细信息

深度神经网络可以极大地提高单图像超分辨率的质量,盲目地增加网络的深度不能有效地改善网络。文章针对单图像超分辨率任务提出了一种新颖的深度多尺度递归密集网络(multi-scale recursive dense network,MSRDN),首先构造一个浅层特征提取模块来初步提取粗糙特征,然后将粗糙特征输入到多尺度密集模块(multi-scale dense blocks,MSDBs)群中。每个MSDB都包含一个双旁路子网和一个通道注意力机制,其中前者能通过密集的跳跃连接将不同尺度的特征混合在一起,后者能从通道中提取有效信息。MSDB模块有助于生成信息的前后流动,并在训练过程中促进梯度向后传播。所有MSDB模块的输出将通过重建模块恢复为高分辨率图像,并构成损失函数的不同项。在网络末端使用亚像素卷积层进行上采样,不需要将双三次插值作为预处理步骤,从而大大降低了计算复杂度。在基准数据集上进行的大量定性和定量实验的结果表明,提出的MSRDN具有更好的重构性能和视觉效果。

关键词：深度学习计算机视觉卷积神经网络多尺度超分辨率

来源：评论

学校读者我要写书评

暂无评论

基于双重注意力机制的异步优势行动者评论家算法

引用

计算机学报 2020年第1期43卷 93-106页

作者：凌兴宏李杰朱斐刘全伏玉琛苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000 常熟理工学院计算机科学与工程学院江苏常熟215500

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 详细信息

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性.

关键词：注意力机制双重注意力机制行动者评论家异步优势行动者评论家异步深度强化学习

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：