检索结果-内蒙古大学图书馆

自动化学报 2025年第4期51卷 857-874页

作者：张文韬张保勇袁德明徐胜元南京理工大学自动化学院

本文研究了多智能体时变网络上基于bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其... 详细信息

本文研究了多智能体时变网络上基于bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其附近产生的函数值.为此,结合单点梯度估计方法和预测映射技术,提出一种非欧几里得意义上的分布式在线bandit鞍点优化算法.以动态鞍点遗憾作为性能指标,对于一般的凸-凹损失函数,建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛.此外,考虑到在迭代优化中计算优化子程序的精确解通常较为困难,进一步扩展一种基于近似计算方法的算法变种,并严格分析精确度设置对扩展算法遗憾上界的影响.最后,通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.

关键词： bandit反馈分布式优化在线鞍点问题镜面下降动态鞍点遗憾

来源：评论

学校读者我要写书评

暂无评论

基于bandit反馈的自适应量化分布式在线镜像下降算法

引用

控制理论与应用 2023年第10期40卷 1774-1782页

作者：谢俊如高文华谢奕彬华南理工大学数学学院广东广州510640

多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降... 详细信息

多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降算法在处理高维数据和大规模在线学习上的优势,本文使用个体目标函数在两点处的函数值信息对缺失的梯度信息进行估计,并且根据镜像下降算法的性质设计自适应量化器,提出基于bandit反馈的自适应量化分布式在线镜像下降算法.然后分析了量化误差界和Regret界的关系,适当选择参数可得所提算法的Regret界为O(√T).最后,通过数值仿真验证了算法和理论结果的有效性.

关键词：镜像下降算法多智能体系统优化量化 bandit反馈

来源：评论

学校读者我要写书评

暂无评论

基于bandit反馈的在线分布式镜面下降算法

引用

西南大学学报（自然科学版） 2022年第1期44卷 99-107页

作者：朱小梅李觉友重庆师范大学数学科学学院重庆401331 重庆两江新区博雅小学校重庆401121

针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方... 详细信息

针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题.

关键词：在线学习分布式优化镜面下降算法 bandit反馈 Regret界

来源：评论

学校读者我要写书评

暂无评论

基于bandit反馈的多智能体系统在线分布式优化问题研究

基于Bandit反馈的多智能体系统在线分布式优化问题研究

引用

作者：王聪南京理工大学

学位级别：博士

近年来,随着由多个智能体组成的大型系统在现实中越来越常见,与多智能体系统相关的问题在实际中得到了广泛的运用,例如传感器网络、机器学习和博弈论等。其中,在线分布式优化是与多智能体系统相关的一个重要问题。利用分布式策略处理在... 详细信息

近年来,随着由多个智能体组成的大型系统在现实中越来越常见,与多智能体系统相关的问题在实际中得到了广泛的运用,例如传感器网络、机器学习和博弈论等。其中,在线分布式优化是与多智能体系统相关的一个重要问题。利用分布式策略处理在线优化问题具有如下优势:系统中的每个节点运算时不需要知道全部信息;每个节点只与其相邻的节点通信,可节约通信成本。在线分布式优化问题中,每个节点在每次迭代时做出决定后,都会根据时变的目标函数产生一个代价值。研究这类问题的目标是使所有节点随时间累计的代价值的和达到最少。在研究在线分布式优化问题时,每个节点在任意次迭代时都会根据其在之前迭代所做决定导致的反馈值来做出下次迭代时的决定。在很多算法中,例如在线梯度下降算法中,各节点会根据之前决定所致的反馈梯度信息做出新的决定。但在一些实际应用中,梯度信息是难以获取或根本无法获的。于是,衍生出了基于bandit反馈设计的在线分布式优化算法。基于bandit反馈计算即在分布式优化计算中利用由各节点所做决定导致的函数值作为反馈信息进行运算。论文的主要工作是围绕基于bandit反馈设计的在线分布式优化算法进行了一些研究,由以下几点构成。 1、在多智能体系统的网络图是随时间发生变化的非平衡有向图,且梯度反馈无法获得的情况下,研究多智能体系统的无约束在线分布式优化问题。利用push-sum和单点梯度估计器构建新的算法,证明了该算法的有效性和收敛性。最后通过一个仿真例子来验证所研究算法的可行性。 2、在多智能体系统的网络图是随时间发生变化的平衡有向图,且梯度反馈无法获得的情况下,研究有约束的多智能体系统的随机在线分布式优化问题。利用原始对偶算法分别结合单点梯度估计器和双点梯度估计器,设计基于bandit反馈在线原始对偶分布式优化算法。论文中不仅证明了算法的有效性和收敛性,还对理论结果进行了验证。 3、在多智能体系统的网络图是随时间发生变化的非平衡有向图,且梯度反馈无法获得的情况下,研究有约束的多智能体系统的在线分布式优化问题。利用push-sum、双点梯度估计器、镜面下降和原始对偶算法,设计基于bandit反馈在线原始对偶镜面下降算法,在该算法中,原始变量使用镜面下降算法进行迭代。论文中证明了所研究算法的有效性和收敛性,并通过仿真展示算法在解决有约束在线分布式优化问题时的表现。 4、在多智能体系统的网络图是随时间发生变化的非平衡有向图,梯度反馈无法获得,且存在反馈滞后的情况下,研究有约束的多智能体系统的在线分布式优化问题。利用push-sum、双点梯度估计器、原始对偶算法构建的新算法,在bandit反馈存在滞后的情况下,进行有约束在线分布式优化问题求解。证明了所研究算法可用于求解有约束在线分布式优化问题,且讨论了反馈滞后对算法工作的影响。利用仿真验证了理论结果。

关键词：在线分布式优化多智能体系统 bandit反馈

来源：评论

学校读者我要写书评

暂无评论

基于bandit反馈的分布式在线算法研究

基于Bandit反馈的分布式在线算法研究

引用

作者：朱小梅重庆师范大学

学位级别：硕士

近年来,随着数据规模的增大及其高速流式产生方式的普及,分布式优化算法在理论和应用上都取得了很大的发展。许多基于此框架的算法被设计出来并在实践中成功应用。随着数据规模的爆炸式增长,集中式优化算法因受限于单机的计算瓶颈而难... 详细信息

近年来,随着数据规模的增大及其高速流式产生方式的普及,分布式优化算法在理论和应用上都取得了很大的发展。许多基于此框架的算法被设计出来并在实践中成功应用。随着数据规模的爆炸式增长,集中式优化算法因受限于单机的计算瓶颈而难以求解大规模优化问题。而多机协作的分布式机制可以大大降低单机的计算负担。同时,在分布式网络中,节点之间通过相互协调合作,可以有效地解决智能电网、传感器网络等大规模问题,并能提高数据传递效率,增强网络鲁棒性。但在实际应用中,分布式网络一般都在动态环境下运行,传统的批量学习算法在处理大量数据上十分耗时,而在线学习具有实时更新模型的特点,能够根据数据的变化动态地调整模型,进而可更高效地完成对大量实时数据的处理,且其在机器学习、在线推荐系统和资源分配等方面都有着重要的应用价值。然而在实际情况中,梯度信息无法直接获取或者难以获取的这类优化问题在分布式在线优化中占有非常重要的地位,因此研究此类问题具有至关重要的意义。本文主要考虑一类分布式在线优化问题的相关算法及其收敛性结果,本文其余部分安排如下:第1章,介绍了本文所需要的相关背景知识,并简单概述了本文的主要研究内容及创新之处。第2章,考虑在无向图下,对于一类梯度难以获取或无法获取的分布式在线优化问题,即bandit问题。利用bandit反馈技术,设计出该问题的bandit分布式在线算法,并给出相关收敛性分析,同时通过数值模拟实验证明该算法是有效的。第3章,考虑在有向图下,对于现有分布式在线算法不允许应用于一些基于传播的网络的bandit问题。利用bandit反馈技术和行随机性质,设计出该问题的算法,并给出相关收敛性分析。最后给出了数值算例证明该算法的有效性。第4章,考虑在时变有向图下,对于现有分布式在线算法在动态的通信图的场景无法处理的bandit问题。利用bandit反馈技术和时变行随机性质,设计出该问题的算法,并给出相关收敛性分析。最后通过数值实例证明该算法是有效的。第5章,对本文的研究进行总结并对后续的研究工作做出了展望。

关键词：多智能网络分布式优化在线优化镜面下降算法对偶平均算法 Bregman散度 bandit反馈光滑化函数

来源：评论

学校读者我要写书评

暂无评论

基于bandit反馈和镜像下降算法的分布式在线优化研究

基于Bandit反馈和镜像下降算法的分布式在线优化研究

引用

作者：谢俊如华南理工大学

学位级别：硕士

基于多智能体系统的分布式优化可以有效地解决资源配置、多目标追踪等大规模优化问题.“去中心化”的设定能提高传递信息的效率并增强网络的鲁棒性.很多实际优化问题通常面临动态环境,因此,近几年分布式在线优化成为一个热门的研究方向... 详细信息

基于多智能体系统的分布式优化可以有效地解决资源配置、多目标追踪等大规模优化问题.“去中心化”的设定能提高传递信息的效率并增强网络的鲁棒性.很多实际优化问题通常面临动态环境,因此,近几年分布式在线优化成为一个热门的研究方向.大多数分布式在线优化问题中,环境需要向智能体反馈目标函数,即完全信息反馈.但在推荐系统、投资组合等分布式在线优化的实际应用领域中,目标函数可能无法获取或计算梯度所需的代价高昂,环境只向智能体反馈目标函数有限点处的函数值,即bandit反馈.分布式优化问题需要设计相应的优化算法来进行求解.作为次梯度下降算法的延伸,镜像下降算法通过使用Bregman散度来替代次梯度算法中的欧氏距离,能更为有效地处理大规模优化问题.本文在bandit反馈下设计镜像下降算法,用于处理分布式在线优化问题.通过量化和事件触发机制降低通信代价,研究复合优化以拓宽应用范围.主要工作分为三个部分: 多智能体网络中节点的通信能力是有限的,并且节点使用量化器对数据处理后再进行信息交流可以降低通信的代价.欧氏投影算法中所使用的量化分析方法并不能直接使用在基于非欧投影的镜像下降算法中.本文利用了镜像下降算法的特性来设计自适应量化器,并提出基于bandit反馈的自适应量化分布式在线镜像下降算法.理论分析表明算法具有次线性的Regret界,并且量化器产生的量化误差随时间逐渐趋于0.本文通过数值仿真验证了理论分析的结果和算法的有效性.还进一步探讨了自适应量化机制在带有随机次梯度信息的强凸优化问题上的应用. 为了减少节点间的通信次数,本文将事件触发技术应用于分布式在线优化问题中,提出了在bandit反馈下带有事件触发机制的分布式在线镜像下降算法.通过对其进行收敛性分析,证明当事件触发阈值随时间无限增大而趋于0时,算法具有次线性增长的Regret界并用数值仿真验证了理论的结果. 考虑非平衡有向网络上的分布式复合优化问题,提出了基于bandit反馈的分布式在线复合镜像下降算法,分析了算法的Regret界,通过数值仿真验证了算法的有效性.本文中非平衡有向网络的权重矩阵仅要求为行随机,节点不需要知道它的出度并可以自由分配权重,从而使得算法能应用于更为复杂的网络.

关键词：分布式优化镜像下降在线凸优化多智能体系统 bandit反馈量化事件触发复合优化

来源：评论

学校读者我要写书评

暂无评论

基于bandit反馈的分布式在线对偶平均算法

引用

四川轻化工大学学报（自然科学版） 2020年第3期33卷 87-93页

作者：朱小梅重庆师范大学数学科学学院重庆401331

为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即bandit反馈,利用函数值信息去近似原损失函数的梯度信息... 详细信息

为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即bandit反馈,利用函数值信息去近似原损失函数的梯度信息,克服了求解复杂函数梯度存在的计算量大等问题。然后,给出了该算法的收敛性分析,结果表明,Regret界的收敛速度为O(Tmax{k,1-k}),其中T是最大迭代次数。最后,利用传感器网络的一个特例进行了数值模拟计算,计算结果表明,所提算法的收敛速度与现有的分布式在线对偶平均(DODA)算法的收敛速度接近。与DODA算法相比,所提出算法的优点在于只考虑了函数值信息,使其更适用于梯度信息获取困难的实际问题。

关键词：分布式在线优化对偶平均算法 bandit反馈 Regret界

来源：评论

学校读者我要写书评

暂无评论

具有反馈延迟分布式在线复合优化的动态遗憾性能

引用

自动化学报 2025年第4期51卷 835-856页

作者：侯瑞捷李修贤易新蕾洪奕光谢立华同济大学电子与信息工程学院控制科学与工程系自主智能无人系统全国重点实验室教育部自主智能无人系统前沿科学中心上海自主智能无人系统科学中心上海智能科学与技术中心同济大学麻省理工学院信息与决策系统实验室南洋理工大学电气与电子工程学院

研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点bandit反馈和两点bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基... 详细信息

研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点bandit反馈和两点bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基于近端梯度下降算法,分别设计这三种延迟反馈的分布式在线复合优化算法,并且对动态遗憾上界进行分析.分析结果表示,延迟梯度反馈和延迟两点bandit反馈的动态遗憾上界阶数在期望意义下相同,而延迟单点bandit反馈的动态遗憾上界稍差于前两者.这表明,存在延迟时,两点bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界,且在步长选择合适的情况下,三种反馈类型的平均延迟在动态遗憾上具有相同的阶数.最后通过仿真实验验证了算法的性能和理论分析结果.

关键词：分布式在线凸优化复合优化反馈延迟 bandit反馈动态遗憾

来源：评论

学校读者我要写书评

暂无评论

基于差分隐私机制的分布式优化算法研究

基于差分隐私机制的分布式优化算法研究

引用

作者：杨志强南京信息工程大学

学位级别：硕士

近年来,随着计算机技术和通信技术的发展,多智能体系统已经广泛应用于微电网控制、医疗预测等领域。分布式优化问题作为多智能体系统基本问题之一成为当前的一个研究热点。在分布式优化框架下,每个智能体都与一个局部目标函数相对应,其... 详细信息

近年来,随着计算机技术和通信技术的发展,多智能体系统已经广泛应用于微电网控制、医疗预测等领域。分布式优化问题作为多智能体系统基本问题之一成为当前的一个研究热点。在分布式优化框架下,每个智能体都与一个局部目标函数相对应,其旨在利用本地信息和与邻居通信,使所有智能体的状态收敛到全局最优解。和传统的集中式优化算法相比,分布式优化算法具有较高的鲁棒性,并且计算成本更低。很多实际问题可以建模成分布式优化问题,例如经济调度问题、机器人编队控制等问题。因此研究能够应用于不同场景的分布式优化算法具有重要意义。本文主要研究内容如下: (1)针对连续系统中的分布式凸优化问题,提出一种基于自适应事件触发机制的零梯度和优化算法。基于虚拟时钟机制设计了一种自适应事件触发条件,当每个智能体的虚拟时钟满足该条件时才触发条件,有效的降低了控制器的更新次数和系统的通信负担。通过构造李雅普诺夫函数证明了在该算法下所有智能体的状态渐近收敛到全局最优解。此外,所设计的事件触发条件使最小事件触发间隔时间可设计,有效的排除芝诺现象。 (2)针对强连通有向图上考虑隐私保护和梯度信息未知的分布式在线优化问题,提出了一种基于差分隐私机制和单点反馈的分布式在线优化算法。该算法采用行、列随机矩阵作为加权矩阵,释放了对双随机加权矩阵的要求。引入差分隐私机制对节点的状态进行扰动,基于隐私水平和灵敏度确定所添加的噪声量,有效的保护了节点的隐私信息。此外,基于单点反馈来估计真实的梯度信息,并利用估计的梯度信息来更新决策变量,避免了精确地梯度计算。利用单点反馈进行梯度估计会产生相应的扰动项,通过选择合适的勘探参数来调整该项,确保算法的收敛性。理论结果表明,所提出的算法不仅能实现次线性遗憾界,而且能保护节点的隐私信息。 (3)针对时变不平衡有向网络上考虑隐私保护和梯度信息未知的分布式在线优化问题,提出了一种基于差分隐私机制的分布式在线单点残差反馈优化算法。通过动态构造行随机矩阵,有效的消除了时变不平衡图的影响。进一步针对单点反馈算法估计方差较大的问题,引入了单点残差反馈估计真实的梯度信息来更新决策变量。并通过引入约束集有界性的假设首次证明了单点残差反馈的有界性。同时考虑了隐私信息泄漏的问题。理论结果表明,所提出的算法不仅能够保护节点的隐私信息,同时能够获得期望遗憾界。

关键词：多智能体系统分布式优化事件触发机制差分隐私 bandit反馈

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：