首页 > 论文范文 > 工程工业论文 > 电力工业论文 > 电力系统论文 > 基于改进k-means算法的电力负荷数据聚类方法

基于改进k-means算法的电力负荷数据聚类方法

2024-10-08 71 上传者：管理员

摘要：针对现有数据聚类方法难以对电力系统负荷数据进行有效聚类的问题，该文结合改进k-means算法，完成电力负荷数据聚类方法设计。该研究基于电力负荷数据中心点生成过程，构建中心点间距与类簇距离判定函数，筛选电力负荷数据聚类中心。确定聚类中心后，采用数据分离方法完成正常负荷数据和异常负荷数据的分离，在分离过程中应保证数据连续，以避免潜在有用数据丢失。利用改进的k-means算法分析电力负荷数据，计算不同种类数据间的欧氏距离。设定指针矩阵，融合不同类中心点，对原始数据区间规范化操作，获取不同簇的负荷数据聚类通道传输功率谱密度。将数据依次分配到不同簇上，实现电力负荷数据聚类。由实验结果可知，该方法站点1数据聚类范围为0.3～0.48 pu，站点2数据聚类范围为0.34～0.47 pu，优于对比方法，与理想聚类范围最贴近，具有良好的聚类效果。

关键词：
区间规范化操作
改进k-means算法
数据聚类
电力负荷
电网
加入收藏

由于近年来社会经济快速发展，电网作为基础保证设施，其结构越来越复杂，其系统的电力负荷量也越来越大。加强电力系统的安全稳定运行，增加电力系统的经济效益，已成为各国电力企业关注的焦点。电力负荷的正确划分是电力负荷管理的一项重要任务。在电力系统的规划、设计和运行过程中，构建一个与之相适应的、适合于电力系统的动态负荷模型具有非常重大的现实意义。众多学者针对电力负荷数据的聚类问题展开研究，并得到一定的研究成果，文献[1]提出了基于自编码器的聚类方法，该方法采用基于自编码的方式对所采集的负荷数据进行了降维，并采用了一种基于加权密度的Canopy方法，对经过降维后的数据进行了聚类，由此得到了一个初始的簇中心和最优聚类数目K值。文献[2]提出了改进分段线性表示的聚类方法，将PLR和DTW的方法进行相似性分析，得到基于IPLR的数据集的降维和重建结果。通过联合使用时变Boost的方法度量不同维度的时序之间的相似性，得到电网负荷的日变化特性。由于电力系统负荷变化规律受到静态特性和动态特性影响，使用上述两种方法在数据量大范围增加时会出现误差急剧增加的情况。为避免其影响聚类效果，文中提出了基于改进k-means算法的电力负荷数据聚类方法，希望通过该研究，可为电力负荷数据的有效划分聚类提供文献参考。

1、改进k-means算法的数据聚类中心筛选

k-means聚类算法是一种用于聚类分析的迭代方法，该算法结合了模糊集理论的多目标优化算法，通过计算每个对象与初始聚类之间距离确定每个群集中心位置[3]。在为每一个目标分配任务之后，该集群将根据在该集群中已经存在的目标来重新设置。这种循环将会继续，直到集群中心不再发生变化，或者不再有数据被分配给其他集群。然而，因为kmeans聚类方法对初值的聚类中心有特定的需求，如果对初值的选取不同，则会造成较大差异[4-6]。因此，文中对k-means聚类方法进行了改进，使k的数值发生变化，然后对k值依次进行k-means计算，用计算后的核心来代替原来的数据[7]。随着k值的增大，每一个k-means子集得到的聚类都具有更广泛的空间和更多的信息。

给出三类电力负荷模拟数据，对这三类数据进行k取值，产生中心点。

如果一个类别与另外两个类别相交，则会对类别数量及最终聚类效果造成不利影响[8-10]。为剔除不利于聚类的中间节点，提高聚类精度，将中间节点之间的距离和类别的分位半径相融合，并设置如下条件：

式中，ri、rj分别表示第i、j个类中心点oi、oj的聚类半径[11]。为满足此约束条件，即在两个中心点之中，较大的直径比较小的直径与两个中心点间距之和要大，由此可将其看作在直径比较大的类别中出现了不同类别之间的交叉信息，从而导致本来应该被区分出来的类被合并，所以将直径比较大的中心点删除，然后对中心点集合进行更新。

2、基于改进k-means算法的数据聚类

根据改进k-means算法的数据聚类中心筛选结果，计算每个聚类中心的区域数据聚集密度大小。以最大的聚类区为初始聚类区，按顺序计数，直至选定的聚类区数目满足要求为止[12]。通过这种方法选取的初始簇可更好地体现出数据的空间分布特点，从而避免了由于初值选取的随机性而导致聚类结果终止于局部最优。利用改进k-means算法筛选数据聚类中心后，设计基于改进k-means算法的聚类步骤，如下所示：

步骤一：在确定聚类核心后，对群集进行筛选。在初始的电力负荷数据中，同一使用者号码（同样的user＿no）有多条记录，可表示为：

式中，tk表示第k个记录的时间延迟编码；sk表示一个编号对应多个记录结果的误差数据[13]。基于此，其解决办法是把同一用户在同一时刻的多条数据累积起来，再综合为一条记录数据[14]。由此，可完成正常数据和异常数据分离模型的设计，其可表示为：

式中，nnullCount表示特征数参数量；η表示负荷特征数量。若数值为1，则表示连续为空的负荷特征数量没有超过特征数参数量，所以无需删除[15]；若数值为0，则表示连续为空的负荷特征数量超过特征数参数量，所以需删除。由此，可保证数据连续，避免一些潜在的有用数据被抹去。

步骤二：对电力负荷数据进行凝聚层次聚类分析。将m种聚类数据视为m个簇，不同种类数据间的欧氏距离可表示为：

式中，ci1,cj1,⋯,cim,cjm表示原样本特征矩阵中对应的主成分得分。将距离从小到大依次排列，在排列过程中还包含对m个对象的标记[16]。最终根据次序，对每一段距离，将其所标示的两个类簇进行对比，如果其属于其他类簇，那么就将其融合为一个类簇，直至总的类簇数为1或满足特定情况为止。

步骤三：采用一种改进k-means聚类算法对所选取的聚类点进行归并，以得到更好的初始结果。融合中心点的核心思想是将距离较近的多个中心点合成一个类别，用多个中心点的平均数作为新类别的中心点。当任意两个中心点之间距离比任意两个中心间距大时，可将其合并为一个类别。

建立一个用于将各类别的中间节点进行合并的指针矩阵，其可表示为：

当计算出的结果为1时，应该将两个中心点进行组合，将中心点的传递性和相互不相容性属性相融合，设置一个集合存储仍然没有被划分出来的中心点。如果该中心点中仍有元素，则其取值为1，反之取值为0。

步骤四：对于同一数据，各特性之间取值范围会有很大差别。在原始数据中，一些属性的特性与其他特性的单元不完全相同，若对这些特性进行分析，则数值大的特征会掩盖数值小的特征，使得数值小的特征得不到充分利用，从而导致计算结果出现偏差和错误。因此，为解决该问题，就必须将原始的数据加以标准化处理，公式为：

式中，Za表示属性a的某个值；maxa、mina分别表示属性a的最大、最小值。通过使用区间规范化的操作，可将全部的电力负荷值规范在[0,1]的范围内，若某一行中的电力负荷值都是0，则不需进行区间规范化，只需将其保留为0。如果某一行中的电力负荷值不完全相同，那么需要对区间进行规范化处理。

步骤五：规范化处理后，对电力负荷数据进行特征抽取，获取不同簇的负荷数据聚类通道传输功率谱密度，其可表示为：

式中，l表示负荷数据通道序列号；μzi表示数据通道传输频率；ht表示传输时间谱。在通道传输功率谱密度计算结果下，构建并行集成的聚类函数：

式中，H表示不同类数据受到相互影响的范围；ϑ表示数据集频度；q(l)表示通道里数据个数。

步骤六：重复上述步骤，直到聚类中心不再将数据重新分配到别的类簇为止。

3、实验

3.1实验数据集

依据2021年某市的两个光伏站点的实际功率，充分考虑其季节特性，以季度为单位进行数据聚类。以第一季度电力负荷数据为例，取样间隔时间为5 min，分析电力负荷出力规律。对于站点1标准化功率标幺值波动范围为0.15～0.66 pu，理想聚类范围为0.3～0.4 pu；对于站点2标准化功率标幺值波动范围为0.28～0.5 pu，理想聚类数值为0.36 pu。

3.2实验数据预处理

在电力系统运行过程中，因通信中断，软硬件故障以及外界的信号扰动，电力系统上的负荷不可能完全消失。为解决这个问题，必须先将数据经过标准化的预处理。通过对数据预处理，防止电力负荷幅值对聚类效果造成不良影响[17]。

3.3实验结果与分析

对于这两个站点，应用基于自编码器的聚类方法、改进分段线性表示的聚类方法与基于改进k-means算法的聚类方法进行聚类效果分析。对于站点1，聚类效果如图1所示。

由图1可知，应用基于自编码器的聚类方法功率标幺值波动范围超过理想聚类范围，大部分数据不在理想聚类范围内，其波动范围为0.16～0.59 pu；应用改进分段线性表示的聚类方法功率标幺值波动范围超过理想聚类范围，部分数据在理想聚类范围内，其波动范围为0.25～0.55 pu；应用基于改进k-means算法的聚类方法大部分标幺值波动范围在理想聚类范围内，其波动范围为0.3～0.48 pu。通过对站点1聚类效果分析可知，使用所研究的改进k-means算法数据聚类范围与理想聚类范围最贴近。

图1不同方法站点1聚类效果分析

对于站点2，聚类效果如图2所示。

由图2可知，应用基于自编码器的聚类方法功率标幺值波动范围为0.28～0.44 pu；应用改进分段线性表示的聚类方法功率标幺值波动范围为0.28～0.46 pu；应用基于改进k-means算法的聚类方法功率标幺值波动范围为0.34～0.47 pu。通过对站点2聚类效果分析可知，使用所研究的改进k-means算法数据聚类范围与理想聚类范围最贴近。

图2不同方法站点2聚类效果分析

4、结束语

针对实际应用中出现的不同类型电力负荷数据，文中采用改进k-means算法对其进行聚类。将其应用于实际电力负荷聚类过程中，通过实验验证了该聚类方法对k值识别能力较高，并且可获得比较理想的原始簇中心点。该方法利用不同的中间节点之间的距离来进行选择和归并，在某种意义上缩短了该方法的运算速度，使得该方法更适合于大型电力系统的负荷数据聚类。

参考文献:

[1]赵忠啟,常喜强,樊艳芳,等.基于自编码器的电力负荷聚类分析[J].科学技术与工程,2021,21(32):13737-13743.

[2]宋军英,崔益伟,李欣然,等.改进分段线性表示与动态时间弯曲相结合的负荷曲线聚类方法[J].电力系统自动化,2021,45(2):89-96.

[3]刘明红,袁昕,童辉.高维电力数据的聚类优化算法的研究[J].科技通报,2021,37(1):50-55.

[4]刘敦楠,张悦,彭晓峰,等.计及相似日与气象因素的电动汽车充电负荷聚类预测[J].电力建设,2021,42(2):43-49.

[5]肖钊,邓杰文,刘晓明,等.基于运行规律和TICC算法的风电SCADA高维时序数据聚类方法[J].机械工程学报,2022,58(23):196-207.

[6]赵海波,相志军,肖林松.基于异构数据的电力短期负荷大数据预测方案[J].电信科学,2022,38(12):103-111.

[7]杜秀丽,姜晓虎,孙晨瞳,等.基于方向性多重假设检验和信息熵的函数型数据聚类新方法[J].南京师大学报(自然科学版),2022,45(4):1-9.

[8]魏勇,李学军,李万伟,等.基于空间密度聚类和Kshape算法的城市综合体负荷模式聚类方法[J].电力系统保护与控制,2021,49(14):37-44.

[9]武昕,于金莹,彭林,等.基于用户边缘侧事件解析的工业电力负荷非侵入式感知辨识[J].电力系统自动化,2021,45(4):29-37.

基金资助:国网山西省电力公司科技项目资助(52051L20000A);

文章来源:吕相沅,陈安琪,刘青,等.基于改进k-means算法的电力负荷数据聚类方法[J].电子设计工程,2024,32(20):121-124+129.