关键词:
社区能源交易
特征差异
隐私保护
强化学习
柔性策略-评价算法
摘要:
考虑到新型电力系统中产消者特征各异,产消者对能源交易中的隐私性高度重视以及传统基于模型的优化方法在多重不确定性环境下的局限性,该文提出一种面向社区能源交易考虑特征差异和隐私保护的多智能体强化学习方法。首先,分析不同产消者的地理位置、分布式资源种类和主体类型等特征差异,建立相应的典型产消者模型;其次,以社区型市场结构为基础,构建基于市场中端费率定价的社区能源交易模型;最后,以市场收益和运行成本为优化目标,将产消者参与社区能源交易的能源交易优化问题构建成部分可观测马尔可夫决策过程。针对储能的荷电状态循环约束引入的稀疏奖励问题,该文提出采用基于余弦距离的动态奖励整形对奖励函数进行改进。针对其中的多智能体环境非平稳性问题,该文提出采用平均场近似机制对柔性策略-评价算法的Q函数进行近似,并采用该算法求解得到产消者的能量管理决策。通过算例验证,所提算法解决考虑特征差异和隐私保护的能源交易问题能够提高1.39%~54.32%的训练效率和降低0.46%~50.34%的平均累积日成本。