检索结果-内蒙古大学图书馆

计算机学报 2019年第8期42卷 1812-1826页

作者：朱斐吴文伏玉琛刘全苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 常熟理工学院计算机科学与工程学院江苏常熟215500

深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近... 详细信息

深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性.

关键词：强化学习深度强化学习深度Q网络安全深度强化学习安全人工智能经验回放

来源：评论

学校读者我要写书评

暂无评论

基于双重注意力机制的异步优势行动者评论家算法

引用

计算机学报 2020年第1期43卷 93-106页

作者：凌兴宏李杰朱斐刘全伏玉琛苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室长春130012 软件新技术与产业化协同创新中心南京210000 常熟理工学院计算机科学与工程学院江苏常熟215500

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 详细信息

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性.

关键词：注意力机制双重注意力机制行动者评论家异步优势行动者评论家异步深度强化学习

来源：评论

学校读者我要写书评

暂无评论

两级特征联合学习的情感说话人识别

引用

计算机工程与应用 2023年第1期59卷 149-155页

作者：刘金琳李冬冬王喆蔡立志华东理工大学信息科学与工程学院上海200237 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

针对说话人识别的性能易受到情感因素影响的问题,提出利用片段级别特征和帧级别特征联合学习的方法。利用长短时记忆网络进行说话人识别任务,提取时序输出作为片段级别的情感说话人特征,保留了语音帧特征原本信息的同时加强了情感信息... 详细信息

针对说话人识别的性能易受到情感因素影响的问题,提出利用片段级别特征和帧级别特征联合学习的方法。利用长短时记忆网络进行说话人识别任务,提取时序输出作为片段级别的情感说话人特征,保留了语音帧特征原本信息的同时加强了情感信息的表达,再利用全连接网络进一步学习片段级别特征中每一个特征帧的说话人信息来增强帧级别特征的说话人信息表示能力,最后拼接片段级别特征和帧级别特征得到最终的说话人特征以增强特征的表征能力。在普通话情感语音语料库(MASC)上进行实验,验证所提出方法有效性的同时,探究了片段级别特征中包含语音帧数量和不同情感状态对情感说话人识别的影响。

关键词：情感说话人识别长短时记忆网络深度神经网络

来源：评论

学校读者我要写书评

暂无评论

蜻蜓网络上完全独立生成树的构造算法

引用

计算机科学 2022年第11期49卷 284-292页

作者：卞庆荣程宝雷樊建席潘志勇苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

蜻蜓网络(Dragonfly network)是由Kim等提出的一种适用于高性能计算系统的拓扑结构。在蜻蜓网络中,网络被组织成两级架构,计算节点与交换机连接,交换机被分为成多个组。在每一组内部的每个交换机之间互相有一条边相连,任意两组之间有一... 详细信息

蜻蜓网络(Dragonfly network)是由Kim等提出的一种适用于高性能计算系统的拓扑结构。在蜻蜓网络中,网络被组织成两级架构,计算节点与交换机连接,交换机被分为成多个组。在每一组内部的每个交换机之间互相有一条边相连,任意两组之间有一条边相连接。完全独立生成树在信息的可靠传输、信息的并行传输和安全分发以及并行故障服务器诊断算法中具有非常重要的应用。在实际应用中,随着网络规模的不断增大,信息传输的效率以及安全性等要求越来越高。因此,研究网络的完全独立生成树具有重要意义。目前,有许多关于网络中完全独立生成树的研究,但是缺乏蜻蜓网络上的完全独立生成树的研究成果。文中提出了蜻蜓网络全局链路分别以相对链接、绝对链接以及循环链接下的完全独立生成树划分的构造算法,并在此划分的基础上给出了完全独立生成树边集合的构造算法,并对以上算法的正确性进行了证明。最后分析了算法的时间复杂度。

关键词：蜻蜓网络拓扑完全独立生成树算法

来源：评论

学校读者我要写书评

暂无评论

Geometry Clipmap算法扩展研究

引用

系统仿真学报 2009年第S1期21卷 136-140页

作者：吴健曹妍妍崔志明王晓军苏州大学江苏省计算机信息处理技术重点实验室江苏215006 苏州大学智能信息处理及应用研究所江苏215006

Geometry Clipmap算法是一种基于GPU优化的LOD算法,在研究Geometry Clipmap算法的基础上,对该算法进行了扩展。增加了地形数据调度模块,采用地形块预读取和预卸载策略,实现对海量地形数据的内外存管理。对内存中Clipmap堆栈的数据结构... 详细信息

Geometry Clipmap算法是一种基于GPU优化的LOD算法,在研究Geometry Clipmap算法的基础上,对该算法进行了扩展。增加了地形数据调度模块,采用地形块预读取和预卸载策略,实现对海量地形数据的内外存管理。对内存中Clipmap堆栈的数据结构进行了改进,取消了原始算法中Clipmap Pyramid部分。将Geometry Instancing技术引入渲染过程,进一步提升了渲染速度。实验表明,该算法实用有效,能够满足大规模地形可视化的实时渲染要求。

关键词： GPU 地形LOD Geometry Clipmap 四叉树

来源：评论

学校读者我要写书评

暂无评论

深度分层强化学习研究与发展

引用

软件学报 2023年第2期34卷 733-760页

作者：黄志刚刘全张立华曹家庆朱斐苏州大学计算机科学与技术学院江苏苏州215006 江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州215006 符号计算与知识工程教育部重点实验室(吉林大学) 吉林长春130012 软件新技术与产业化协同创新中心(南京) 江苏南京210093

深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒... 详细信息

深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结.

关键词：人工智能强化学习深度强化学习半马尔可夫决策过程深度分层强化学习

来源：评论

学校读者我要写书评

暂无评论

基于不确定性权重的保守Q学习离线强化学习算法

引用

计算机科学 2024年第9期51卷 265-272页

作者：王天久刘全乌兰苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从... 详细信息

离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从而解决离线强化学习中对数据集分布外(OOD)的状态-动作价值估值错误的问题。保守Q学习算法(CQL)通过值函数正则赋予分布外状态-动作较低的价值来避免该问题。然而,由于该算法正则化过于保守,数据集内的分布内状态-动作也被赋予了较低的价值,难以达到训练策略选择数据集中动作的目的,因此很难学习到最优策略。针对该问题,提出了一种基于不确定性权重的保守Q学习算法(UWCQL)。该方法引入不确定性计算,在保守Q学习算法的基础上添加不确定性权重,对不确定性高的动作给予更高的保守权重,使得策略能更合理地选择数据集分布内的状态-动作。将UWCQL算法应用于D4RL的MuJoCo数据集中进行了实验,实验结果表明,UWCQL算法具有更好的性能表现,从而验证了算法的有效性。

关键词：离线强化学习深度强化学习强化学习保守Q学习不确定性

来源：评论

学校读者我要写书评

暂无评论

基于多级特征双向融合的小目标检测优化模型

引用

计算机应用 2024年第9期44卷 2871-2877页

作者：潘烨新杨哲苏州大学计算机科学与技术学院江苏苏州215006 江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州215006

由于自身特征较小以及网络的深度造成特征丢失等客观原因,小目标的检测一直是目标检测领域的难点问题。针对以上问题,提出基于网络结构进行多次特征增强以优化小目标检测的模型。首先,替换主干网络中的空间金字塔池化(SPP)以优化梯度计... 详细信息

由于自身特征较小以及网络的深度造成特征丢失等客观原因,小目标的检测一直是目标检测领域的难点问题。针对以上问题,提出基于网络结构进行多次特征增强以优化小目标检测的模型。首先,替换主干网络中的空间金字塔池化(SPP)以优化梯度计算;其次,对网络颈部实行区分特征级别的多级双向融合,并对输出头添加自适应特征融合(AFF)模块,以实现多级的特征增强。实验结果表明,在COCO2017-val数据集上,当交并比(IoU)为0.5时,所提模型的平均精度均值达到61.4%,与目前较流行的YOLOv7模型相比提高了4.7个百分点,同时在单GPU上模型的检测帧率为78.2 frame/s,满足工业检测速度要求。

关键词：深度学习小目标目标检测计算机视觉特征融合

来源：评论

学校读者我要写书评

暂无评论

逆向强化学习研究综述

引用

软件学报 2023年第10期34卷 4772-4803页

作者：张立华刘全黄志刚朱斐苏州大学计算机科学与技术学院江苏苏州215006 江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州215006 符号计算与知识工程教育部重点实验室(吉林大学) 吉林长春130012 软件新技术与产业化协同创新中心江苏南京210023

逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 详细信息

逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向.

关键词：逆向强化学习模仿学习生成对抗模仿学习逆向最优控制强化学习

来源：评论

学校读者我要写书评

暂无评论

基于重要性采样的优势估计器

引用

通信学报 2019年第5期40卷 108-116页

作者：刘全姜玉斌胡智慧苏州大学计算机科学与技术学院江苏苏州215006 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006 吉林大学符号计算与知识工程教育部重点实验室吉林长春130012 软件新技术与产业化协同创新中心江苏南京210093

在连续动作任务中,深度强化学习通常采用高斯分布作为策略函数。针对高斯分布策略函数由于截断动作导致算法收敛速度变慢的问题,提出了一种重要性采样优势估计器(ISAE)。该估计器在通用优势估计器(GAE)的基础上,引入了重要性采样机制,... 详细信息

在连续动作任务中,深度强化学习通常采用高斯分布作为策略函数。针对高斯分布策略函数由于截断动作导致算法收敛速度变慢的问题,提出了一种重要性采样优势估计器(ISAE)。该估计器在通用优势估计器(GAE)的基础上,引入了重要性采样机制,通过计算边界动作的目标策略与行动策略比率修正截断动作带来的值函数偏差,提高了算法的收敛速度。此外,ISAE引入了L参数,通过限制重要性采样率的范围,提高了样本的可靠度,保证了网络参数的稳定。为了验证ISAE的有效性,将ISAE与近端策略优化结合并与其他算法在Mu Jo Co平台上进行比较。实验结果表明,ISAE具有更快的收敛速度。

关键词：强化学习重要性采样深度强化学习优势函数

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：