检索结果-内蒙古大学图书馆

计算机科学 2023年第1期50卷 253-261页

作者：徐平安刘全苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量... 详细信息

策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量的计算资源,因此双策略蒸馏框架(Dual Policy Distillation,DPD)被提出,其不再依赖于教师策略,而是维护两个学生策略互相进行知识迁移。然而,若其中一个学生策略无法通过自我学习超越另一个学生策略,或者两个学生策略在蒸馏后趋于一致,则结合DPD的深度强化学习算法会退化为单一策略的梯度优化方法。针对上述问题,给出了学生策略之间相似度的概念,并提出了基于相似度约束的双策略蒸馏框架(Similarity Constrained Dual Policy Distillation,SCDPD)。该框架在知识迁移的过程中,动态地调整两个学生策略间的相似度,从理论上证明了其能够有效提升学生策略的探索性以及算法的稳定性。实验结果表明,将SCDPD与经典的异策略和同策略深度强化学习算法结合的SCDPD-SAC算法和SCDPD-PPO算法,在多个连续控制任务上,相比经典算法具有更好的性能表现。

关键词：深度强化学习策略蒸馏相似度约束知识迁移连续控制任务

来源：评论

学校读者我要写书评

暂无评论

基于增强特征金字塔网络的场景文本检测算法

引用

计算机科学 2022年第2期49卷 248-255页

作者：邵海琳季怡刘纯平徐云龙苏州大学计算机科学与技术学院江苏苏州215006 苏州大学应用技术学院江苏苏州215300

场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决... 详细信息

场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决上述问题,提出了一种基于增强特征金字塔网络的场景文本检测算法。该算法包括比率不变特征增强(Ratio Invariant Feature Enhanced,RIFE)模块和重建空间分辨率(Rebuild Spatial Resolution,RSR)模块。RIFE模块作为残差分支,增强了网络的高层语义信息传递,提高了分类能力,降低了误报率和漏捡率。RSR模块重建多层特征分辨率,利用丰富的空间信息改进边界位置。实验结果表明,所提算法提升了在多方向文本数据集ICDAR2015、弯曲文本数据集Totaltext以及长文本数据集MSRA-TD500上的检测能力。

关键词：场景文本检测特征金字塔网络语义信息空间信息边界位置

来源：评论

学校读者我要写书评

暂无评论

外部信息引导和残差置乱的场景图生成方法

引用

计算机科学与探索 2021年第10期15卷 1958-1968页

作者：田鑫季怡高海燕林欣刘纯平苏州大学计算机科学与技术学院江苏苏州215006 符号计算与知识工程教育部重点实验室(吉林大学) 长春130012

场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图... 详细信息

场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图数据失衡问题进行研究,提出一种基于外部信息引导和残差置乱相结合的场景图生成方法(EGRES),缓解数据集偏置对场景图生成的负面影响。该方法利用外部知识库中无偏置的常识性知识规范场景图的语义空间,缓解数据集中关系数据分布不平衡的问题,以提高场景图生成的泛化能力;利用残差置乱方式对视觉特征和提取的常识性知识进行融合,规范场景图生成网络。在VG数据集上的对比实验和消融实验证明,提出的方法可以有效改善场景图生成。对于数据集中不同标签的对比实验证明,提出的方法可以改善绝大多数关系类别的生成性能,尤其是中低频关系类别下的场景图生成性能,极大地改善了数据标注失衡的问题,比现有的场景图生成方法具有更好的生成效果。

关键词：数据集偏置残差置乱外部知识库场景图生成

来源：评论

学校读者我要写书评

暂无评论

一种加速时间差分算法收敛的方法

引用

自动化学报 2021年第7期47卷 1679-1688页

作者：何斌刘全张琳琳时圣苗陈红名闫岩苏州大学计算机科学与技术学院苏州215006 苏州大学江苏省计算机信息处理技术重点实验室苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就... 详细信息

时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就造成了加速TD算法收敛的方法匮乏.针对此问题提出了一种利用蒙特卡洛算法(Monte Carlo methods,MC)来加速TD算法收敛的方法(Accelerate TD by MC,ATDMC).该方法不仅可以适用于绝大部分的TD算法,而且不需要改变在线学习的方式.为了证明方法的有效性,分别在同策略(On-policy)评估、异策略(Off-policy)评估和控制(Control)三个方面进行了实验.实验结果表明ATDMC方法可以有效地加速各类TD算法.

关键词：强化学习时间差分算法蒙特卡罗算法加速收敛

来源：评论

学校读者我要写书评

暂无评论

基于随机加权三重Q学习的异策略最大熵强化学习算法

引用

计算机科学 2022年第6期49卷 335-341页

作者：范静宇刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家... 详细信息

强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。

关键词： Q学习深度学习异策略强化学习连续动作空间最大熵软行动者—评论家算法

来源：评论

学校读者我要写书评

暂无评论

一种快速收敛的最大置信上界探索方法

引用

计算机科学 2022年第1期49卷 298-305页

作者：敖天宇刘全苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper... 详细信息

深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper Confidence Bound Exploration with Fast Convergence,FAST-UCB)方法。该方法使用UCB算法探索大状态空间,提高探索效率。为缓解Q值高估的问题、平衡探索与利用关系,加入了Q值截断技巧。之后,为平衡算法偏差与方差,使智能体(agent)快速学习,在网络模型中加入长短时记忆(Long Short Term Memory,LSTM)单元,同时使用一种改进混合蒙特卡洛(Mixed Monte Carlo,MMC)方法计算网络误差。最后,将FAST-UCB应用到深度Q网络(Deep Q Network,DQN),在控制类环境中将其与ε-贪心(ε-greedy)、UCB算法进行对比,以验证其有效性。在雅达利(Atari)2600环境中将其与噪声网络(Noisy-Network)探索、自举(Bootstrapped)探索、异步优势行动者评论家(Asynchronous Advantage Actor Critic,A3C)算法和近端策略优化(Proximal Policy Optimization,PPO)算法进行对比,以验证其泛化性。实验结果表明,FAST-UCB算法在这两类环境中均能取得优秀效果。

关键词：探索最大置信上界长短时记忆混合蒙特卡洛 Q值截断

来源：评论

学校读者我要写书评

暂无评论

结合改进差分进化和模块密度的社区发现算法

引用

计算机科学与探索 2020年第6期14卷 1070-1080页

作者：冯勇张冰茹徐红艳王嵘冰张永刚辽宁大学信息学院沈阳110036 吉林大学符号计算与知识工程教育部重点实验室长春130012

社区发现是个性化推荐、群体特征归集、社会网络分析等领域研究的基础与核心,而现有社区发现算法在处理日益复杂的社会网络时,存在准确性不高、收敛速度慢、模块度分辨率受限等问题。为此,将差分进化和模块密度思想引入社区发现中,提出... 详细信息

社区发现是个性化推荐、群体特征归集、社会网络分析等领域研究的基础与核心,而现有社区发现算法在处理日益复杂的社会网络时,存在准确性不高、收敛速度慢、模块度分辨率受限等问题。为此,将差分进化和模块密度思想引入社区发现中,提出了一种结合改进差分进化和模块密度的社区发现算法。该算法首先调整差分进化的变异策略和参数,再将模块密度作为适应度函数以克服模块度分辨率限制;然后根据社区结构进行修正操作,以提高种群中的个体质量,加快全局收敛速度。在计算机生成网络数据集及5个具有代表性的真实世界网络数据集上,与多个应用较为广泛的社区发现算法进行对比实验。实验结果表明所提算法具有更高的准确性和更优的收敛性能。

关键词：社区发现社会网络差分进化模块密度变异策略

来源：评论

学校读者我要写书评

暂无评论

视频内容特征与弹幕文本相结合的短视频推荐模型

引用

辽宁大学学报（自然科学版） 2021年第2期48卷 108-115页

作者：冯勇邹宝旭徐红艳辽宁大学信息学院辽宁沈阳110036

随着多媒体和互联网技术的融合发展,短视频以其时长短、内容精练的特点获得广大用户的喜爱.但目前短视频推荐大多基于用户的评论或标签,推荐的准确性不高,效率较低.为此,提出了一种视频内容特征与弹幕文本相结合的短视频推荐模型,融合... 详细信息

随着多媒体和互联网技术的融合发展,短视频以其时长短、内容精练的特点获得广大用户的喜爱.但目前短视频推荐大多基于用户的评论或标签,推荐的准确性不高,效率较低.为此,提出了一种视频内容特征与弹幕文本相结合的短视频推荐模型,融合深度学习方法与弹幕技术的优势,充分提升个性化服务水平.该模型首先对于弹幕进行文本分析,确定弹幕文本的主题;然后通过深度学习方法分析短视频的内容特征;最后结合用户最近看过的短视频,根据其高光时刻确定所属主题,进而产生相应的推荐列表.通过对比实验,验证了所提模型在准确率、召回率上比RFM以及VRFCL等当前主流短视频推荐模型有较显著的提升,同时该模型具有良好的效率优势.

关键词：短视频弹幕文本深度学习个性化推荐

来源：评论

学校读者我要写书评

暂无评论

带最大熵修正的行动者评论家算法

引用

计算机学报 2020年第10期43卷 1897-1908页

作者：姜玉斌刘全胡智慧苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大... 详细信息

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性.

关键词：强化学习深度学习行动者评论家算法最大熵策略梯度

来源：评论

学校读者我要写书评

暂无评论

基于双重注意力机制的异步优势行动者评论家算法

引用

计算机学报 2020年第1期43卷 93-106页

作者：凌兴宏李杰朱斐刘全伏玉琛苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000 常熟理工学院计算机科学与工程学院江苏常熟215500

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 详细信息

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性.

关键词：注意力机制双重注意力机制行动者评论家异步优势行动者评论家异步深度强化学习

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：