在世界能源格局的背景下,分布式光伏得到了空前的发展,装机量逐年增长。分布式光伏地理位置相对分散,数据在不同的用户并网点都存在一定缺失,这对功率预测带来了一定的困难。预测工作作为电力系统一个重要过程,对后续的并网控制和调度有着基础作用,故预测高精度就显得至关重要。 针对分布式光伏数据特性,首先对数据进行预处理,在归一化后先通过皮尔逊相关系数进行特征工程操作,将相关性不高的冗余项进行剔除降维,减少输入的维数,提取相关性高的气象因素提高模型的学习率。由于厂站设备在记录数据时存在着丢失和错误记录,且经过降维后的数据还存在着异常,采用四分位方法进行数据的识别及清洗,在不受数据分布的影响前提下,有效的隔离出孤立值。为了探究数据缺失对预测工作的影响,在不同的缺失情况下比较预测精度,验证完整且质量高数据集的重要性。对清洗后序列缺失的数据,选取基于皮尔逊系数的数值插补。在数据预处理后选取合适的机理模型和数据驱动模型,为后续仿真提供高效的预测模型。 在数据预处理的基础上,建立数字孪生体模型,将物理空间和数据空间结合,物理空间为分布式光伏厂站的各个结构和设备参数,数据空间选取的是长短期记忆网络(Long Short Term Memory Network,LSTM),将物理空间中采集到气象和功率数据经过处理输入进LSTM模型中,经过数据模型得到一个预测值,然后在物理空间的数据库中寻找与预测日相似的功率数据,分析比较两个功率值,通过权重的加权计算出最后的功率值,数字孪生体模型将机理和数据驱动联通,有效的提高了预测精度。 建立融合stacking模型,选取合适的机理模型和数据驱动模型作为基学习器,通过对各个数据驱动分别仿真验证,最终选取合适的数据驱动作为基学习器,然后分别对机理模型和数据驱动模型采取相应的特征工程,将特征工程后的数据输入进基学习器中,最后由融合模型得出功率值。 本文采用德国地区分布式光伏数据分别对数字孪生体模型和融合stacking模型进行验证分析,根据实际的预测结果和指标验证各自模型的有效性。提出数据处理有效的解决了分布式光伏长久以来的预测确实问题,融合模型有效的吸取了机理模型和数据驱动各自的优势,在分布式光伏日益发展的情况下发挥重要作用。
暂无评论