首页 > 论文范文 > 工程工业论文 > 电力工业论文 > 基于Kmeans++-Bi-LSTM的太阳辐照度超短期预测

基于Kmeans++-Bi-LSTM的太阳辐照度超短期预测

2023-12-29 68 上传者：管理员

摘要：针对地表太阳辐射的不确定性和随机波动性，进而对大型光伏发电并网对电力系统的稳定性造成冲击，提出一种新的太阳辐照度超短期预测方案。该方案通过使用皮尔逊相关性分析和无监督学习中的Kmeans++算法，对多种气象数据进行筛选，找出关键气象数据并进行划分以及添加标签，接着将带有标签的关键气象数据输入双向长短期记忆网络预测模型中，以达到10 min时间间隔的太阳辐照度超短期预测。结果表明所提预测模型相较于目前常用的模型提高了预测精度。

关键词：
双向长短期记忆网络
太阳辐射
聚类分析
超短期
随机波动性
加入收藏

近年来，在强劲的清洁能源市场增长的推动下，光伏发电得到了迅速发展，但电网面临的光伏发电风险也越来越高。为提高电网的稳定性，需准确的太阳能预测光伏发电的波动情况[1]。而光伏发电的输出可根据光伏模块平面上的太阳辐照度计算得出，因此预测太阳辐照度对于电网的稳定具有很重要的作用[2]。

为了提高太阳辐照度预测的准确性，近年来已提出多种不同方法，用于预测不同时间和空间分辨率的太阳辐照度[3]。例如通过卫星遥感方法（satellite remote sensing,RS）每5～10分钟进行数据采样并进行1～24小时太阳辐照度预测[4]；通过数值天气预报（numerical weather prediction models,NWP）模型进行超短期太阳辐照度预测[5]；同时，近年来兴起的深度学习也因为其在预测时间序列的优异性能而被应用到太阳辐照度预测中，例如使用深度学习模型（artificial neural network,ANN)[6]、多层感知器（multi-layer perceptron,MLP)[7]、遗传算法（genetic algorithm,GA）优化后的MLP[8]、非线性自回归神经网络（nonlinear autoregressive neural network,NARNN)[9]、长短期记忆网络（long short-term memory,LSTM)[10]，以及融合了双向长短期记忆网络（bidirectional long short-term memory,BiLSTM）和一维卷积神经网络（convolutional neural network,CNN）的深度学习模型[11]。这些模型在目前的太阳能辐照度预测中比较热门。

为了在保证预测精度的同时减少训练模型的时长，本文提出通过皮尔逊相关系数分析，Kmeans++聚类和双向长短期记忆网络的预测模型。第一步，先使用皮尔逊相关系数分析筛选出和太阳辐照度相关程度较高的输入气象数据；第二步，通过Kmeans++进行天气类型的聚类并给各天气类型加上标签；第三步，将之前所得数据输入双向长短期记忆网络，预测未来10分钟内的太阳总辐照度；最后一步，通过ANN、LSTM、Bi-LSTM和CNN-LSTM对比模型的准确性，并选择多个地区的数据验证其普遍适用性。

1、模型

1.1 预测模型输入变量确定

本文采用美国可再生能源实验室中的国家太阳辐射数据库（National Solar Radiation Database,NSRDB）的地区观测数据，其数据包括全年的太阳总辐照度（global horizontal irridiance,GHI），在晴空条件下的地表太阳辐射、云层类型、太阳高度角、温度、相对湿度、压力、风速、风向、雪深等18个相关数据，所有数据的时间间隔均为10 min。通过皮尔逊相关性系数分析结合NRSDB所提供的数据，从中筛选相关系数较高的输入的数据类型，实现对输入的降维，降低后续运算的时间成本。皮尔逊相关系数计算为：

式中：xi——自变量x的样本值；yi——自变量y的样本值；xˉ——自变量x的平均值；yˉ——自变量y的平均值。

1.2 输入变量的聚类与划分

Kmeans作为目前最常用的十大聚类算法之一，其属于无监督分类算法，在对样本进行聚类分析时，主要依靠样本到聚类中心的欧氏距离进行划分，样本选择最近的聚类中心形成簇而无需对样本进行初始化标记。Kmeans++是针对Kmeans的一种改进型方法，其主要的改进点是对Kmeans随机初始化聚类中心的方法的优化。Kmeans是完全随机的选取聚类中心，而Kmeans++则是基于初始的聚类中心之间的相互距离应尽可能远的原则，通过样本点与首个随机选择的的聚类中心进行计算，若是与当前聚类中心的距离越大，则其成为下一个聚类中心的概率就越大，依次完成所有聚类中心的选择。Kmeans++相较于Kmeans的优点在于其能提高聚类效果的同时无需随机选取聚类中心，提高了计算精度。流程如图1所示。

图1 Kmeans++模型流程图

1.3 双向长短期记忆网络

对于循环神经网络（recurrent neural network,RNN），一种对其优化方式为长短期神经网络，循环神经网络本身是一种比较优秀的神经网络，其神经网络结构可让其实现对时间序列的信息提取以及有能力对历史的状态以及特征信息进行储存，最后综合所有数据进行连续数据预测。但其存在梯度爆炸以及梯度消失的问题，在长序列的学习中被最新的数据所主导，而对远端的数据逐渐忽略。而长短期记忆网络解决了在RNN长序列学习中所存在的这些问题，因此相较而言更适用于对地表太阳辐射这类需依靠较长历史数据进行学习的数据预测。

LSTM一共由3种类型的门结构构成，分别是遗忘门、输入门以及输出门，其细胞t-1时刻和t时刻状态由两个状态量表示，分别是Ct-1和Ct，其隐含层t-1时刻和t时刻状态也由两个状态量表示，分别是ht-1和ht。t时刻的输入向量表示为xt、xt、Ct-1以及ht-1共同构成输入，Ct和ht共同构成输出，σ为Sigmoid激活函数，作用为将变量推至0～1之间。tanh为双曲函数，作用为将变量推至-1～1之间，其主要公式为：

式中：Wf、Wi、Wc、Wo——权重参数；bf、bi、bc、bo——偏置参数。

双向长短期记忆网络相较于原本的长短期记忆网络的优化在于其添加了一个可反向传递信息的隐藏层，将单向的LSTM层转变为双层LSTM。正向层为从开头到末尾时刻计算并记录各时刻正序的输出；反向层则是从末尾到开头计算并记录各时刻的倒序输出。最终两层分别获得一个激活函数并综合两层结果为最终的输出结果。双向长短期记忆网络使其当前时刻的输出不仅与过去时间序列的输入有关，也与未来时间序列的输入有关，有利于改善对地表太阳辐射的预测误差。

1.4 模型构建

下一步开始构建Kmeans++-Bi-LSTM模型，首先对从皮尔逊相关性系数分析得到的5个变量转化为向量组，由于输入参数之间的量纲存在差异，因此需在输入Kmeans++前进行归一化处理。然后将其输入Kmeans++的程序中进行聚类，簇的数量k的选择由聚类所得的轮廓系数以及实际情况所决定。聚类结束之后各时间段所得到的天气变量的聚类标签以及GHI在该地区的真实值将添加到向量组中变为额外的两列向量作为输入到Bi-LSTM的因变量中。模型输入步长为7，可表述为：

式中：x1,t——t时刻GHI的预测值，W/m2;x1,t-1——t-1时刻GHI的真实值（以10 min为时间间隔）；xi——5项收集到的气象变量的数据；kt-1——t-1时刻气候分类的标签。

Bi-LSTM模型包含1个输出层、1个ReLu全连接层以加快网络的训练速度、2个Bi-LSTM层以增强学习效果、1个dropout失活层以避免模型发生过拟合问题。学习时设定最大迭代值为50，学习率为0.001的adam算法进行优化。模型运行环境为python3.9，使用的函数包为sklearn。

表1 Kmeans++-Bi-LSTM模型参数

2、实验结果及分析

2.1 模型性能评价指标

本文数据集按时间顺序将数据集按2∶1的比例划分为训练集和预测集，数据集采用中国多个不同站点的数据，以验证模型的准确性以及普遍适用性。本文所采用的评价指标有均方根误差（root mean square error,RMSE），平均绝对误差（mean absolute error,MAE），其计算公式分别为：

式中：n——测试集样本总数量；dt——真实值；yt——模型预测值。

2.2 变量的选择以及数据预处理

本文设计的准确性验证实验采用三亚2019—2020年的数据集。对NSRDB中的18个变量进行筛选，剔除出与预测GHI无关的变量后，将剩下的10个变量进行皮尔逊相关性系数分析，将相关性系数的绝对值大于0.1的变量进行筛选，最终筛选结果为5个变量，分别是相对湿度、气温、太阳高度角、云层类型和晴空条件下的地表太阳辐射。然后通过K-means++聚类，将标签添加到每10分钟的天气情况中。Kmeans++聚类效果如图2所示。图2中3种类别分别为：无光照时期、光照陡升期/陡降期、光照平稳期。

图2 Kmeans++聚类可视化图

2.3 Kmeans++-Bi-LSTM模型性能评估

实验部分采用LSTM、Bi-LSTM、CNN-LSTM进行对比，为了能公平地对4种算法进行对比，实验部分采用与Kmeans++-Bi-LSTM相同的输入变量。实验发现5次实验误差差别均不超过平均值的±10%，因此选择以平均值作为最终的展示结果以减小误差。LSTM的最大迭代值与学习率也为相同设置。实验采用的各模型的GHI预测结果、GHI真实值和RMSE、MAE的结果如图3和表2所示。

图3 不同模型GHI预测值

表2 不同神经网络模型预测性能比较

由表2可看出，在相同输入的情况下，Kmeans++-BiLSTM模型的RMSE相较于LSTM、Bi-LSTM、CNN-Bi-LSTM分别提升了7.36%、6.24%、2.9%;MAE相较于LSTM、BiLSTM、CNN-Bi-LSTM分别提升了13.77%、12.6%、5.5%。同时由3图可看出，Kmeans++-Bi-LSTM的GHI预测值在前60时段数中，和GHI真实值非常的接近。在60～100的GHI真实值波动较为剧烈的情况下，仍能有较好的预测效果。

综合表2和图3，可观察到相较于其他3种类型的模型，本文所提模型在相同输入的情况下其预测性能更优，且相比于LSTM模型其误差RMSE、MAE下降幅度最大。同时，考虑到不同地区存在不同天气情况，进而导致GHI的波动情况也存在差别，最后可能导致各地区各类模型的GHI预测精度不同。本文通过对比中国不同城市的结果误差来验证Kmeans++-Bi-LSTM的普遍适用性。实验所选择的数据集为NSRDB数据库中南宁、成都、包头2019—2020年数据。实验的RMSE、MAE结果如表3所示。

表3 南宁、成都、包头地区不同模型预测性能比较

综合表3可知，虽然各地区的不同模型预测结果各不相同，但从整体上看本文所提Kmeans++-Bi-LSTM模型预测效果从整体上仍最好，其中在包头地区预测精度最高；在成都地区预测精度最低，但都优于其他3种对比模型，证明本文所提Kmeans++-Bi-LSTM模型具有普遍适用性。

3、结论

本文提出一种与太阳总辐照度超短期预测有关的基于Kmeans++-Bi-LSTM的模型，该模型使用皮尔逊相关系数分析进行天气变量的筛选，然后将筛选出的天气变量输入到Kmeans++中进行聚类分析，并将每10分钟的天气变量的类别添加标签，从而提高双向长短期记忆网络学习的准确性，最后通过双向长短期记忆网络在学习时间序列中的优势，实现对提前10 min的GHI超短期预测。通过对照同一地区不同模型以及不同地区不同模型的预测性能，验证了本文模型在精确度方面相较于其他模型的优势，可用来进一步提高电力系统的稳定性。根据实验结果，获得如下主要结论：

1）在预测10 min的GHI上，本文所提模型在验证实验中预测精度相较于其他3种模型更高，其中对LSTM模型的提升幅度最大，对CNN-Bi-LSTM模型的提升幅度最小。

2）在不同地区的不同模型对比中，本文所提模型在各个模型的预测中精度最高，验证了本文所提模型在各地区的普遍适用性。

3）本文虽然对本文所提模型进行了很多实验以验证其性能，但仍有几个值得研究的方面来改善其性能：①选择聚类效果更好的聚类模型，并对簇的数量进行更深入的研究以更科学的划分聚类类型；②选择目前适合于时间序列且精度更高的LSTM模型，例如基于注意力机制的LSTM模型等；③结合卫星云图，通过预测云层厚度以及运动方向同时结合其他气象变量进行综合分析以提高预测精度。

参考文献:

[6]米增强,王飞,杨光,等.光伏电站辐照度ANN预测及其两维变尺度修正方法[J].太阳能学报,2013,34(2):251-259.

[9]马燕峰,蒋云涛,郝毅,等.基于非线性自回归神经网络的GHI预测[J].太阳能学报,2019,40(3):733-740.

[10]赵书强,尚煜东,杨燕燕,等.基于长短期记忆神经网络的地表太阳辐照度预测[J].太阳能学报,2021,42(3):383-388.

[11]倪超,王聪,朱婷婷,等.基于CNN-Bi-LSTM的太阳辐照度超短期预测[J].太阳能学报,2022,43(3):197-202.

基金资助:2020年度南宁市创新创业领军人才(团队)“邕江计划”项目(2020006);广西重点研发计划(AB23026037);

文章来源:官松泽,唐钰本,蔡争等.基于Kmeans++-Bi-LSTM的太阳辐照度超短期预测[J].太阳能学报,2023,44(12):170-174.