检索结果-内蒙古大学图书馆

计算机工程与科学 2025年第1期47卷 140-149页

作者：章政夏小云陈泽丰向毅浙江理工大学计算机科学与技术学院浙江杭州310018 嘉兴大学人工智能学院浙江嘉兴314001 中山大学人工智能学院广东珠海519082 华南理工大学软件学院广东广州510006

旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。... 详细信息

旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。为了提高TTP的求解性能,提出了融合强化学习的算法,采用分阶段策略。第1阶段根据物品的属性生成物品选择计划,第2阶段利用强化学习演员-评论家(Actor-Critic)算法求解旅行路径,第3阶段引入邻域搜索策略优化所得解。实验结果表明,所提算法在大部分算例上都取得了较好的结果,并且在部分算例上,解的质量超越了其他对比算法,表明了所提算法具有较优的性能。

关键词：强化学习旅行背包问题演员-评论家算法组合优化

来源：评论

学校读者我要写书评

暂无评论

顾及路口压力的A2C交通信号调控

引用

计算机仿真 2023年第9期40卷 120-124,139页

作者：张蕾郭全盛林建新李建武北京建筑大学电气与信息工程学院北京100044 建筑大数据智能处理方法研究北京市重点实验室北京100044 北京建筑大学土木与交通工程学院北京100044 北京理工大学前沿技术研究院北京100081

对城市道路交通进行有效地智能化调控,可以缓解拥堵,缩短出行时间,维护社会稳定,有重要的理论价值和实际意义。为此提出顾及路口压力的多智能体Actor-Critic算法。先设计缓解路口压力的强化学习策略,构建基于深度神经网络的多智能体Acto... 详细信息

对城市道路交通进行有效地智能化调控,可以缓解拥堵,缩短出行时间,维护社会稳定,有重要的理论价值和实际意义。为此提出顾及路口压力的多智能体Actor-Critic算法。先设计缓解路口压力的强化学习策略,构建基于深度神经网络的多智能体Actor-Critic模型,通过Actor-Critic算法生成行动并做出判别。在SUMO(Simulation of Urban Mobility)平台上模拟交通网络,与三种传统交通信号调控算法进行对比。实验结果表明,所提方法使车辆到达数量提升了12%、车辆平均速度提升了5%,优于其它基准算法。

关键词：交通信号控制强化学习演员-评论家算法深度神经网络

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的多智能体地标覆盖方法研究

基于深度强化学习的多智能体地标覆盖方法研究

引用

作者：梁家璇燕山大学

学位级别：硕士

近年来,随着人工智能技术的不断发展,研究者在单智能体深度强化学习领域取得了许多优秀的成果。为了解决复杂的团队任务,研究人员将深度强化学习方法应用到了多智能体领域。地标覆盖任务是最常见的多智能体协同问题之一,在国防、物流、... 详细信息

近年来,随着人工智能技术的不断发展,研究者在单智能体深度强化学习领域取得了许多优秀的成果。为了解决复杂的团队任务,研究人员将深度强化学习方法应用到了多智能体领域。地标覆盖任务是最常见的多智能体协同问题之一,在国防、物流、车间等领域均有重要应用。多智能体系统中,内部智能体同时与环境交互,且智能体之间相互影响,受邻居智能体的位置、运动速度等因素影响较大,导致很多单智能体深度强化学习算法在多智能体系统中难以收敛,学习效果不佳。针对以上问题,本文主要进行以下研究,具体内容如下。首先,针对多智能体系统环境非平稳的问题,本文提出一种基于最大熵的模型MECT(Maximum Entropy Covering Task),用以解决多智能体地标覆盖的任务。该模型采用演员-评论家(Actor-Critic,AC)算法框架,将AC算法框架与集中训练,分散执行框架相结合。在训练过程中输入所有智能体对环境的观察信息,训练出能近似拟合真实Q值的Critic网络。在策略选择时,智能体只需根据自身行为即可选择最优动作。在增强策略学习的随机性上引入了最大熵函数,并优化了智能体奖励值公式。在Open AI提供的多粒子环境下进行算法性能实验,对比了MADDPG、MAAC、DQN三种算法,验证了改进模型的高效性,并对多智能体学习效率进行了分析。其次,为了降低算法复杂度和特征矩阵的计算量,本文在MECT模型基础上重新搭建了网络结构,提出了一种基于图卷积网络的智能体覆盖地标任务的模型GCNMAL(Graph Convolutional Network Multi-Agent Landmark)。将环境中的智能体和地标构建成了一个图结构,该结构以智能体和环境中的地标作为顶点。此外,使用多层感知机网络(MLP)聚合所有邻居节点的相对位置信息,同时进行智能体自身状态更新,以图卷积网络平均池化方法聚合所有环境信息以及智能体自身信息。最后,在多粒子环境下与MECT模型MADDPG、MAAC、DQN算法进行实验对比,验证了该方法的优越性,并对多智能体学习效率进行了分析。

关键词：多智能体地标覆盖任务深度强化学习演员-评论家算法图卷积网络集中训练,分散执行

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的多智能体覆盖控制研究

基于深度强化学习的多智能体覆盖控制研究

引用

作者：刘诗诚燕山大学

学位级别：硕士

近年来,随着人工智能技术的不断开拓和智能体领域的不断深入,单智能体深度强化学习领域产出了许多优秀成果。为了解决较复杂的团队任务,深度强化学习逐渐被引入至多智能体范畴中。在多智能体系统中,多智能体覆盖控制任务是最典型的多智... 详细信息

近年来,随着人工智能技术的不断开拓和智能体领域的不断深入,单智能体深度强化学习领域产出了许多优秀成果。为了解决较复杂的团队任务,深度强化学习逐渐被引入至多智能体范畴中。在多智能体系统中,多智能体覆盖控制任务是最典型的多智能体协同问题之一,对此传统单智能体深度强化学习算法难以有效收敛,且学习效率和效果不佳。本文针对智能制造车间中的多机器人搬运系统展开研究,将其抽象为多固定库房点的多智能体覆盖控制问题,并展开以下研究:首先,针对深度强化学习在多智能体覆盖控制系统应用中存在的训练结果不能平稳收敛的问题,提出了一种基于改进Adam优化器的近端策略优化深度强化学习算法IAAC(Improve Adam Actor Critic)。首先,使用样本池机制将智能体与环境互动的结果存储起来并在多智能体训练中提供相应的样本。然后,通过集中式学习、分散式执行的方式,与AC框架(Actor-Critic)相结合训练出一个中心化的可近似拟合真实Q值的评论家(Critic)网络,采用双网络部分继承进行网络参数的更新。最后,在梯度下降过程中引入快慢权重参数更新,用以提高收敛效果和学习效率。然后,针对多智能体深度强化学习算法的复杂度和特征矩阵计算量过大的问题,提出一种基于改进Soft Max层多头注意力机制的多智能体覆盖控制任务模型LSA-MAL(Linear Soft Max Attention Multi-Agent Landmark)。首先,引入多头注意力机制,将输入特征映射成Q、K、V三个特征,通过部分点乘加权映射得到一个新的特征。然后,将Soft Max层的推导公式线性化展开,并对展开公式部分L2归一化,使得线性展开能够模拟原Soft Max映射函数。最后,使用改进后的线性公式代替Soft Max层在多头注意力中的应用。最后,构建了基于多智能体粒子的仿真环境,对基于改进Adam优化器的近端策略优化深度强化学习算法IAAC与基于改进Soft Max层多头注意力机制的多智能体覆盖控制任务模型LSA-MAL进行对比实验与分析。实验结果证明了改进算法与模型的有效性,能够在保持成功率的同时,提高智能体的训练速度和收敛性。

关键词：多智能体系统覆盖控制近端策略优化注意力机制演员-评论家算法

来源：评论

学校读者我要写书评

暂无评论

数据中心高能效负载均衡算法研究

数据中心高能效负载均衡算法研究

引用

作者：高振峰西安电子科技大学

学位级别：硕士

随着云服务的迅猛发展,数据中心的规模和数量需要不断扩大。然而,随之而来的巨大能源消耗阻碍了数据中心的广泛部署,大幅增加了云服务运营商的成本。因此,数据中心的高能效技术显得尤为重要。基于工作负载分配的负载均衡技术可以通过调... 详细信息

随着云服务的迅猛发展,数据中心的规模和数量需要不断扩大。然而,随之而来的巨大能源消耗阻碍了数据中心的广泛部署,大幅增加了云服务运营商的成本。因此,数据中心的高能效技术显得尤为重要。基于工作负载分配的负载均衡技术可以通过调整数据中心服务器的计算资源利用率,实现高能效的目标。然而,传统的工作负载分配算法,聚焦于利用准确模型建立具有复杂约束的优化问题,缺乏面对复杂的高动态性服务器环境的适应性,以及自主学习更新策略的机制。深度强化学习(Deep Reinforcement Learning,DRL)是一种可以自适应环境并通过学习更新策略的方法。但是,现有的基于深度强化学习深度Q学习(Deep Q-Learning Network,DQN)算法的高能效负载均衡算法,在进行计算密集型工作负载的分配时,没有考虑常规类型工作负载对服务器动态性的影响,同时易受服务器状态变化而导致策略的波动,学习效果有待提升。针对以上问题,本论文提出了针对服务器高动态性场景下,基于深度强化学习演员-评论家(Actor-Critic,AC)算法的高能效负载均衡算法。首先,本文构造了服务器利用率受计算密集型和常规类型工作负载影响的高动态性系统模型,并建立了服务质量约束下,以最小化长期能耗为目标的优化问题。然后,利用深度神经网络生成了演员-评论家算法中的演员网络,将服务器的利用率、空闲物理核数量和能耗构建成服务器状态,把状态信息输入到演员网络。随后演员网络中的策略函数输出以计算密集型工作负载分配决策构成的动作。同时,利用深度神经网络生成评论家网络,将状态信息和演员网络输出的动作输入到评论家网络。评论家利用评估函数对演员的动作进行评估,指导演员朝着最大化长期奖励的方向调整策略函数,奖励由服务器能耗的减少量构成。演员-评论家算法采用更新神经网络参数的方式更新策略函数和评估函数,通过迭代更新的方式,实现对高动态环境的适应,以及对策略的持续更新。通过评论家对演员输出的动作进行评估的方式,保证了演员网络策略函数的稳定性,避免了因环境变化导致的策略波动。本论文使用阿里巴巴2018年集群追踪数据集搭建了数据中心运行环境,并使用真实场景的数据对基于演员-评论家算法的高能效负载均衡算法进行了仿真。结果表明,本文的所提算法相比轮询调度算法,最佳适应算法和深度强化学习DQN算法降低了更多的能耗。

关键词：数据中心高能效负载均衡工作负载分配深度强化学习演员-评论家算法

来源：评论

学校读者我要写书评

暂无评论

基于强化学习算法的机械臂PAP操作技能学习研究

基于强化学习算法的机械臂PAP操作技能学习研究

引用

作者：黄新蕊燕山大学

学位级别：硕士

随着人工智能的迅速发展,强化学习逐渐成为机器人操作技能学习研究的重点算法之一。针对在机器人操作技能学习阶段面临的周期长、成本高和效率低等诸多难题,设计出具备一定自主决策和学习能力的机器人操作技能学习算法成为机器学习研究... 详细信息

随着人工智能的迅速发展,强化学习逐渐成为机器人操作技能学习研究的重点算法之一。针对在机器人操作技能学习阶段面临的周期长、成本高和效率低等诸多难题,设计出具备一定自主决策和学习能力的机器人操作技能学习算法成为机器学习研究的重中之重。本文针对机械臂抓取与放置(Pick-and-place,PAP)操作技能学习问题展开研究,在综合分析国内外研究现状的基础上,结合强化学习算法并加以改进,基于此设计更加有效的机械臂PAP操作技能学习方法。具体研究内容如下:首先,针对基于强化学习算法的PAP操作技能学习效率和成功率普遍偏低问题,提出了联合演员-评论家(Actor-Critic,AC)算法和Q-Learning算法的机器人PAP操作技能学习算法。该算法基于Actor-Critic和动作-价值(Action-Value)的等价性,利用策略算法的融合学习,推导设计了联合AC和Q-Learning的ACQL算法;将ACQL算法用于PAP操作技能学习过程中,采用演员-评论家算法进行策略更新,并将学习所得数据存入回放缓冲区;同时采用Q-Learning对缓冲区的数据进行学习,更新Q值,解决了Q-Learning收敛问题。最后,设计了对比实验,验证了ACQL算法解决PAP操作技能学习问题的有效性。然后,针对基于ACQL算法的PAP操作技能学习中存在的数据相关性高、学习效率仍不够理想的问题,提出了基于A3CQL算法的PAP操作技能学习算法。基于异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法对ACQL算法进行改进,设计了A3CQL算法;将A3CQL算法用于PAP操作技能学习过程中,运用优势函数对Critic网络进行优化,使机械臂PAP操作技能学习趋向奖励值最大化,并且在机械臂探索过程中结合了价值函数和异步学习机制;最后,通过实验验证了A3CQL算法解决PAP操作技能学习问题的高效性。

关键词：强化学习机器人操作技能机械臂抓取与放置演员-评论家算法 Q学习算法异步优势演员-评论家算法

来源：评论

学校读者我要写书评

暂无评论

基于深度强化学习的车辆路径规划算法设计

引用

数字化用户 2023年第23期29卷 270-272页

作者：赵馨雨郑州大学信息管理学院　河南　郑州　450001

本文针对带容量约束的车辆路径问题提出了一种基于深度强化学习的车辆路径规划算法，该算法使用改进指针网络作为策略函数，利用结合指数移动平均的演员-评论家算法进行参数更新。实验结果表明，该算法在不同规模的CVRP问题上均优于启... 详细信息

本文针对带容量约束的车辆路径问题提出了一种基于深度强化学习的车辆路径规划算法，该算法使用改进指针网络作为策略函数，利用结合指数移动平均的演员-评论家算法进行参数更新。实验结果表明，该算法在不同规模的CVRP问题上均优于启发式算法，且在大规模问题上接近数学规划优化器的效果，具有较好的优化效果和迁移能力。

关键词：车辆路径问题深度强化学习指针网络演员-评论家算法

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：