摘要:针对现有数据聚类方法难以对电力系统负荷数据进行有效聚类的问题,该文结合改进k-means算法,完成电力负荷数据聚类方法设计。该研究基于电力负荷数据中心点生成过程,构建中心点间距与类簇距离判定函数,筛选电力负荷数据聚类中心。确定聚类中心后,采用数据分离方法完成正常负荷数据和异常负荷数据的分离,在分离过程中应保证数据连续,以避免潜在有用数据丢失。利用改进的k-means算法分析电力负荷数据,计算不同种类数据间的欧氏距离。设定指针矩阵,融合不同类中心点,对原始数据区间规范化操作,获取不同簇的负荷数据聚类通道传输功率谱密度。将数据依次分配到不同簇上,实现电力负荷数据聚类。由实验结果可知,该方法站点1数据聚类范围为0.3~0.48 pu,站点2数据聚类范围为0.34~0.47 pu,优于对比方法,与理想聚类范围最贴近,具有良好的聚类效果。
加入收藏
由于近年来社会经济快速发展,电网作为基础保证设施,其结构越来越复杂,其系统的电力负荷量也越来越大。加强电力系统的安全稳定运行,增加电力系统的经济效益,已成为各国电力企业关注的焦点。电力负荷的正确划分是电力负荷管理的一项重要任务。在电力系统的规划、设计和运行过程中,构建一个与之相适应的、适合于电力系统的动态负荷模型具有非常重大的现实意义。众多学者针对电力负荷数据的聚类问题展开研究,并得到一定的研究成果,文献[1]提出了基于自编码器的聚类方法,该方法采用基于自编码的方式对所采集的负荷数据进行了降维,并采用了一种基于加权密度的Canopy方法,对经过降维后的数据进行了聚类,由此得到了一个初始的簇中心和最优聚类数目K值。文献[2]提出了改进分段线性表示的聚类方法,将PLR和DTW的方法进行相似性分析,得到基于IPLR的数据集的降维和重建结果。通过联合使用时变Boost的方法度量不同维度的时序之间的相似性,得到电网负荷的日变化特性。由于电力系统负荷变化规律受到静态特性和动态特性影响,使用上述两种方法在数据量大范围增加时会出现误差急剧增加的情况。为避免其影响聚类效果,文中提出了基于改进k-means算法的电力负荷数据聚类方法,希望通过该研究,可为电力负荷数据的有效划分聚类提供文献参考。
1、改进k-means算法的数据聚类中心筛选
k-means聚类算法是一种用于聚类分析的迭代方法,该算法结合了模糊集理论的多目标优化算法,通过计算每个对象与初始聚类之间距离确定每个群集中心位置[3]。在为每一个目标分配任务之后,该集群将根据在该集群中已经存在的目标来重新设置。这种循环将会继续,直到集群中心不再发生变化,或者不再有数据被分配给其他集群。然而,因为kmeans聚类方法对初值的聚类中心有特定的需求,如果对初值的选取不同,则会造成较大差异[4-6]。因此,文中对k-means聚类方法进行了改进,使k的数值发生变化,然后对k值依次进行k-means计算,用计算后的核心来代替原来的数据[7]。随着k值的增大,每一个k-means子集得到的聚类都具有更广泛的空间和更多的信息。
给出三类电力负荷模拟数据,对这三类数据进行k取值,产生中心点。
如果一个类别与另外两个类别相交,则会对类别数量及最终聚类效果造成不利影响[8-10]。为剔除不利于聚类的中间节点,提高聚类精度,将中间节点之间的距离和类别的分位半径相融合,并设置如下条件:
式中,ri、rj分别表示第i、j个类中心点oi、oj的聚类半径[11]。为满足此约束条件,即在两个中心点之中,较大的直径比较小的直径与两个中心点间距之和要大,由此可将其看作在直径比较大的类别中出现了不同类别之间的交叉信息,从而导致本来应该被区分出来的类被合并,所以将直径比较大的中心点删除,然后对中心点集合进行更新。
2、基于改进k-means算法的数据聚类
根据改进k-means算法的数据聚类中心筛选结果,计算每个聚类中心的区域数据聚集密度大小。以最大的聚类区为初始聚类区,按顺序计数,直至选定的聚类区数目满足要求为止[12]。通过这种方法选取的初始簇可更好地体现出数据的空间分布特点,从而避免了由于初值选取的随机性而导致聚类结果终止于局部最优。利用改进k-means算法筛选数据聚类中心后,设计基于改进k-means算法的聚类步骤,如下所示:
步骤一:在确定聚类核心后,对群集进行筛选。在初始的电力负荷数据中,同一使用者号码(同样的user_no)有多条记录,可表示为:
式中,tk表示第k个记录的时间延迟编码;sk表示一个编号对应多个记录结果的误差数据[13]。基于此,其解决办法是把同一用户在同一时刻的多条数据累积起来,再综合为一条记录数据[14]。由此,可完成正常数据和异常数据分离模型的设计,其可表示为:
式中,nnullCount表示特征数参数量;η表示负荷特征数量。若数值为1,则表示连续为空的负荷特征数量没有超过特征数参数量,所以无需删除[15];若数值为0,则表示连续为空的负荷特征数量超过特征数参数量,所以需删除。由此,可保证数据连续,避免一些潜在的有用数据被抹去。
步骤二:对电力负荷数据进行凝聚层次聚类分析。将m种聚类数据视为m个簇,不同种类数据间的欧氏距离可表示为:
式中,ci1,cj1,⋯,cim,cjm表示原样本特征矩阵中对应的主成分得分。将距离从小到大依次排列,在排列过程中还包含对m个对象的标记[16]。最终根据次序,对每一段距离,将其所标示的两个类簇进行对比,如果其属于其他类簇,那么就将其融合为一个类簇,直至总的类簇数为1或满足特定情况为止。
步骤三:采用一种改进k-means聚类算法对所选取的聚类点进行归并,以得到更好的初始结果。融合中心点的核心思想是将距离较近的多个中心点合成一个类别,用多个中心点的平均数作为新类别的中心点。当任意两个中心点之间距离比任意两个中心间距大时,可将其合并为一个类别。
建立一个用于将各类别的中间节点进行合并的指针矩阵,其可表示为:
当计算出的结果为1时,应该将两个中心点进行组合,将中心点的传递性和相互不相容性属性相融合,设置一个集合存储仍然没有被划分出来的中心点。如果该中心点中仍有元素,则其取值为1,反之取值为0。
步骤四:对于同一数据,各特性之间取值范围会有很大差别。在原始数据中,一些属性的特性与其他特性的单元不完全相同,若对这些特性进行分析,则数值大的特征会掩盖数值小的特征,使得数值小的特征得不到充分利用,从而导致计算结果出现偏差和错误。因此,为解决该问题,就必须将原始的数据加以标准化处理,公式为:
式中,Za表示属性a的某个值;maxa、mina分别表示属性a的最大、最小值。通过使用区间规范化的操作,可将全部的电力负荷值规范在[0,1]的范围内,若某一行中的电力负荷值都是0,则不需进行区间规范化,只需将其保留为0。如果某一行中的电力负荷值不完全相同,那么需要对区间进行规范化处理。
步骤五:规范化处理后,对电力负荷数据进行特征抽取,获取不同簇的负荷数据聚类通道传输功率谱密度,其可表示为:
式中,l表示负荷数据通道序列号;μzi表示数据通道传输频率;ht表示传输时间谱。在通道传输功率谱密度计算结果下,构建并行集成的聚类函数:
式中,H表示不同类数据受到相互影响的范围;ϑ表示数据集频度;q(l)表示通道里数据个数。
步骤六:重复上述步骤,直到聚类中心不再将数据重新分配到别的类簇为止。
3、实验
3.1实验数据集
依据2021年某市的两个光伏站点的实际功率,充分考虑其季节特性,以季度为单位进行数据聚类。以第一季度电力负荷数据为例,取样间隔时间为5 min,分析电力负荷出力规律。对于站点1标准化功率标幺值波动范围为0.15~0.66 pu,理想聚类范围为0.3~0.4 pu;对于站点2标准化功率标幺值波动范围为0.28~0.5 pu,理想聚类数值为0.36 pu。
3.2实验数据预处理
在电力系统运行过程中,因通信中断,软硬件故障以及外界的信号扰动,电力系统上的负荷不可能完全消失。为解决这个问题,必须先将数据经过标准化的预处理。通过对数据预处理,防止电力负荷幅值对聚类效果造成不良影响[17]。
3.3实验结果与分析
对于这两个站点,应用基于自编码器的聚类方法、改进分段线性表示的聚类方法与基于改进k-means算法的聚类方法进行聚类效果分析。对于站点1,聚类效果如图1所示。
由图1可知,应用基于自编码器的聚类方法功率标幺值波动范围超过理想聚类范围,大部分数据不在理想聚类范围内,其波动范围为0.16~0.59 pu;应用改进分段线性表示的聚类方法功率标幺值波动范围超过理想聚类范围,部分数据在理想聚类范围内,其波动范围为0.25~0.55 pu;应用基于改进k-means算法的聚类方法大部分标幺值波动范围在理想聚类范围内,其波动范围为0.3~0.48 pu。通过对站点1聚类效果分析可知,使用所研究的改进k-means算法数据聚类范围与理想聚类范围最贴近。
图1不同方法站点1聚类效果分析
对于站点2,聚类效果如图2所示。
由图2可知,应用基于自编码器的聚类方法功率标幺值波动范围为0.28~0.44 pu;应用改进分段线性表示的聚类方法功率标幺值波动范围为0.28~0.46 pu;应用基于改进k-means算法的聚类方法功率标幺值波动范围为0.34~0.47 pu。通过对站点2聚类效果分析可知,使用所研究的改进k-means算法数据聚类范围与理想聚类范围最贴近。
图2不同方法站点2聚类效果分析
4、结束语
针对实际应用中出现的不同类型电力负荷数据,文中采用改进k-means算法对其进行聚类。将其应用于实际电力负荷聚类过程中,通过实验验证了该聚类方法对k值识别能力较高,并且可获得比较理想的原始簇中心点。该方法利用不同的中间节点之间的距离来进行选择和归并,在某种意义上缩短了该方法的运算速度,使得该方法更适合于大型电力系统的负荷数据聚类。
参考文献:
[1]赵忠啟,常喜强,樊艳芳,等.基于自编码器的电力负荷聚类分析[J].科学技术与工程,2021,21(32):13737-13743.
[2]宋军英,崔益伟,李欣然,等.改进分段线性表示与动态时间弯曲相结合的负荷曲线聚类方法[J].电力系统自动化,2021,45(2):89-96.
[3]刘明红,袁昕,童辉.高维电力数据的聚类优化算法的研究[J].科技通报,2021,37(1):50-55.
[4]刘敦楠,张悦,彭晓峰,等.计及相似日与气象因素的电动汽车充电负荷聚类预测[J].电力建设,2021,42(2):43-49.
[5]肖钊,邓杰文,刘晓明,等.基于运行规律和TICC算法的风电SCADA高维时序数据聚类方法[J].机械工程学报,2022,58(23):196-207.
[6]赵海波,相志军,肖林松.基于异构数据的电力短期负荷大数据预测方案[J].电信科学,2022,38(12):103-111.
[7]杜秀丽,姜晓虎,孙晨瞳,等.基于方向性多重假设检验和信息熵的函数型数据聚类新方法[J].南京师大学报(自然科学版),2022,45(4):1-9.
[8]魏勇,李学军,李万伟,等.基于空间密度聚类和Kshape算法的城市综合体负荷模式聚类方法[J].电力系统保护与控制,2021,49(14):37-44.
[9]武昕,于金莹,彭林,等.基于用户边缘侧事件解析的工业电力负荷非侵入式感知辨识[J].电力系统自动化,2021,45(4):29-37.
基金资助:国网山西省电力公司科技项目资助(52051L20000A);
文章来源:吕相沅,陈安琪,刘青,等.基于改进k-means算法的电力负荷数据聚类方法[J].电子设计工程,2024,32(20):121-124+129.
分享:
数据终端采集系统需要对电压、电流、电能、功率等多种电气参数进行实时采集,随后上传到主站中进行存储,便于数据的后期处理。系统可以对用电信息进行分析处理,针对异常用电数据进行标记显示,以确保数据终端采集系统数据信息的有效性和精确性。随着电力系统的规模扩大以及用电需求的增加,电气数据采集变得越来越重要。
2025-01-07随着智能电网建设的不断推进,电力系统的运行效率和可靠性成为关注的焦点。低压台区作为电力系统的重要组成部分,其线损问题直接影响电网的经济运行和供电质量。低压台区线损是指电力在输电、变电、配电过程中由于电阻、电抗、设备损耗等原因而产生的电能损失。线损不仅直接降低了供电企业的经济效益,还可能影响电网的安全稳定运行。
2024-12-05随着科学技术的发展,电力系统的网络拓扑结构越来越复杂。同时用户需求的提高使得电力设备的种类日益增多,且智能化程度不断提高,AI技术的应用也使传统电力系统逐步向智能电网的方向迈进。在智能电网的发展过程中,也同时存储着大量的用户数据,为精准分析用户行为提供了基础。
2024-12-04电力系统是一个由多个子系统和设备组成的高度复杂系统,其包括发电、输电、配电和用电等环节。在这些环节中,涉及到大量的数据采集、传输和处理过程,数据来源也十分广泛,如传感器、计量器、监测系统等,使得电力数据具有高度的异构性和复杂性,需要对有效数据集成和分析,以便更好地理解和控制电力系统。
2024-12-03风机基础施工常见质量通病包括:基础不均匀沉降、混凝土强度不足、较多裂缝、冷缝等。以上质量通病会导致风电机组的倾斜和不平衡,影响风电机组在不同运行工况下的正常工作,严重时甚至造成基础的破坏和倒塌,从而威胁风电场的安全。本文结合实际案例,采用全面因素分析方法,针对风机基础施工中的每个施工环节的施工工艺和关键工序的质量控制。
2024-11-20对于电力施工企业项目而言,影响成本控制效果的因素涉及多个方面,从人力资源成本的角度分析,电力工程施工项目需要大量的劳动力,人工成本是项目成本的重要组成部分[1]。人员的工作效率、技术水平以及人工成本的合理安排,都会直接影响项目的成本控制效果。从材料成本的角度分析,电力工程需要使用大量的电缆、设备、工具等材料。
2024-11-11面对越来越大的生产需求,能源资源需求量也在逐渐增大,尤其对电力能源的需求更是与日俱增;而停电事故的发生意味着电网仍具有一定薄弱性,薄弱环节的存在极易造成电力故障发生连锁反应,降低局部或整体电网的运行安全性和稳定性.因此,识别电网中的薄弱环节一直是电力公司着力研究的项目之一,但是目前取得的成果与预期效果存在很大差距.
2024-11-11风电作为清洁能源,近年来并网入电比例不断加大,极大带动了风电建设市场的发展。根据目前风电建设市场现状,环境条件好、项目建设简单的风电场越来越少,风电施工项目逐渐转向风电资源丰富的山区地带,未来山区风电将迎来跨越式的发展。山区地带道路狭窄弯曲,纵横坡度较大,地面土质较为松软。
2024-11-11大雅河抽水蓄能电站位于辽宁省本溪市桓仁县大雅河上,站址距桓仁县城40km, 距沈阳市直线距离为152km。上水库位于大雅河左岸一撮毛山及其相邻次高峰之间的鞍部,通过开挖鞍部和在其东西两侧筑坝形成库盆。
2024-11-02配电网故障检查与维修在现代电力系统管理中扮演着重要角色,有序开展该项工作,可提升整个电力系统的运行稳定性。过去,由于技术水平等因素的影响,一般采用人员检查维修的方式。即工作人员根据后台监测信息,利用相关设备对配电网进行检测,以判断故障具体位置,并进行维修。
2024-10-23人气:3432
人气:2443
人气:2394
人气:2322
人气:2227
我要评论
期刊名称:电子设计工程
期刊人气:3202
主管单位:九三学社陕西省委员会
主办单位:西安市三才科技实业有限公司
出版地方:陕西
专业分类:电子
国际刊号:1674-6236
国内刊号:61-1477/TN
邮发代号:52-142
创刊时间:1994年
发行周期:半月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.333
影响因子:0.315
影响因子:0.438
影响因子:0.000
影响因子:0.527
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!