“双碳”目标下,分布式能源高比例渗透与异质能源耦合加剧迫使综合能源系统(integrated energy system,IES)优化调度问题的求解难度提升,深度强化学习为解决上述问题提供了有效手段。然而,传统深度强化学习通常将安全约束以惩罚项形式...
详细信息
“双碳”目标下,分布式能源高比例渗透与异质能源耦合加剧迫使综合能源系统(integrated energy system,IES)优化调度问题的求解难度提升,深度强化学习为解决上述问题提供了有效手段。然而,传统深度强化学习通常将安全约束以惩罚项形式加权添加至奖励函数,加权系数一般由人工确定且在迭代过程中保持固定,一定程度上影响了算法的收敛性能与约束处理能力。对此,提出一种基于约束强化学习的IES优化调度方法。首先,构建了基于IES机组运行与系统潮流约束的安全价值网络,并通过拉格朗日乘子与经济价值网络动态并行协同,分别评估智能体决策的安全与经济价值。其次,利用原始对偶的思路,交替更新智能体策略与拉格朗日乘子,以规避人工设置惩罚系数引起的主观偏差对IES调度决策的影响。同时,利用专家知识引导智能体开展训练,防止其盲目寻优造成算力浪费。最后,基于电-热耦合系统开展仿真算例对比分析,验证了所提方法的安全性与高效性。
暂无评论