版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:广西大学电气工程学院 北京航空航天大学杭州创新研究院 浙江大学工业控制技术国家重点实验室
出 版 物:《中国电机工程学报》 (Proceedings of the CSEE)
年 卷 期:2025年
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080802[工学-电力系统及其自动化] 0808[工学-电气工程] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划(2022YFB3304700) 国家自然科学基金项目(62463001) 工业控制技术全国重点实验室开放课题(ICT2024B21) 广西自然科学基金项目(AA22068071)
主 题:深度强化学习 参数共享 动态重构 拓扑变化 分布式电源优化调度
摘 要:随着风光等可再生能源为主的分布式电源高比例接入,在解决分布式电源出力优化调度等问题时,系统拓扑频繁变化,给配电网的稳定运行与经济调度带来挑战。现有方法多适用于固定拓扑的系统,依赖精确模型,计算耗时,难以实现在线控制。现行基于深度强化学习的方法难以兼顾分布式训练和离散-连续混合动作空间。本研究提出了一种考虑参数共享的多智能体深度双阶段强化学习的分布式电源优化策略。首先对整体问题纵向解耦,在第一阶段构建含分布式电源的动态配电网重构模型,利用混合整数二阶锥规划解得拓扑结果;然后将配电网环境横向解耦为若干分区,在第二阶段以一天为周期,提出一种考虑参数共享的集中式训练-分布式执行框架,并融入优先经验回放机制的多智能体优先双延迟深度确定性策略梯度算法。将拓扑信息嵌入配电网环境中,通过潮流计算映射给智能体,以最小化网络有功损耗构建优化调度模型。算例分析表明所提算法考虑了配电网拓扑结构的变化,通过智能体间的策略与经验共享以及优先经验回放机制提高了学习效率,降低了训练难度,可以满足在线实时决策的效率要求,相比其他策略表现出更加优异的稳压减损控制效果。