91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于决策树算法的电网多级冗余数据清除方法

  2024-09-20    53  上传者:管理员

摘要:电网多级冗余数据浪费存储空间,影响数据应用质量。为了提高冗余数据清除准确性,提出基于决策树算法的电网多级冗余数据清除方法。根据电网多级数据处理需求,搭建电网多级冗余数据清除框架;引入决策树算法分类处理多级数据,为冗余数据清除提供便利。融合遗传算法与标准粒子群算法(GA-PSO算法),制定冗余数据检测判定规则,实现电网多级冗余数据的清除。测试结果显示,应用提出方法后,冗余数据查全率最大值为98%,冗余数据查全率最大值为99%,解决了冗余数据处理准确性不高的问题。

  • 关键词:
  • GA-PSO算法
  • 冗余清除
  • 决策树算法
  • 电网多级数据
  • 电网数据采集
  • 加入收藏

电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。因此,如何对电网多级数据中的冗余数据进行清除成为亟待解决的问题。

无人机倾斜摄影冗余数据删除算法[1]主要是通过构建成像模型,识别和去除冗余数据;基于层次规则的冗余数据清除方法[2]依据数据拓扑关系分类处理海量数据,利用层次规则清除冗余数据。上述两种方法的冗余检测算法准确性不足,无法有效清除多级冗余数据。为此提出基于决策树算法的电网多级冗余数据清除方法,解决了难以从电网多级数据中准确清除冗余数据的问题。


1、电网多级冗余数据清除方法研究


1.1冗余数据清除框架搭建

根据电网多级数据处理的准确性需求,有效节约空间,搭建电网多级冗余数据清除框架,具体如图1所示。

图1电网多级冗余数据清除框架示意图

如图1所示,电网多级冗余数据清除框架主要划分为三个阶段。阶段一承担着电网多级数据分类处理任务,能够清晰地将多属性数据划分为不同类别,为后续检测提供便利;阶段二承担着冗余数据检测的任务,有效融合了遗传算法与标准粒子群算法,最大限度提升冗余数据的检测精度;阶段三承担着冗余数据清除任务,清除方式为自动与手动联合,节约数据库空间。

1.2电网多级数据分类处理

基于上节搭建的冗余数据清除框架,引入决策树算法对电网多级数据进行分类,为冗余数据的检测及其清除提供便利。

构建数据分类决策树,具体步骤如下:

步骤一:建立电力数据库空堆栈,设置初始迭代次数为1,最大迭代次数为100;

步骤二:判断节点T中包含的多级属性样本数量NT是否等于或者小于阈值N∗,若NT≤N∗,生成叶子节点,转置步骤五;若NT>N∗,转置步骤三[3-6];

步骤三:根据节点属性与电网多级数据关系Ta生成候选优化集合,并计算信息增益衡量数据价值;

步骤四:依据步骤三计算的信息增益,对当前优化操作是否为加边操作进行判断。若是加边操作,则将边终点的节点设置为活动阶段,并对节点列表进行更新;若非加边操作,则在优化操作的基础上,生成节点T的互补左、右子树,并将其充入栈中;

步骤五:判断数据库空堆栈是否为空。当空堆栈不为空,将栈顶元素赋值给节点T,转置步骤二迭代运算;当空堆栈为空时,输出结果即为决策树的分类结果[7]。

通过上述步骤可以看出,利用决策树分类过程中信息增益计算至关重要,其决定着优化操作的衡量精度[8-9]。传统决策树算法存在扫描效率低、占用内存大的缺点,因此文中通过分裂总熵值对决策树信息增益的衡量精度进行优化。计算决策树节点分裂的总熵值和数据概率,对多级电力数据中的各个属性进行排序,将信息增益最高的属性作为电网多级数据分类的主节点。信息增益计算公式为:

式中,G(A)表示的是电网多级数据属性A对应的信息增益数值;F(x1,x2,⋯,xm)表示的是决策树节点xm分裂的总熵值;m表示的是电网多级数据划分类别的数量;E(A)表示的是依据属性A的每个信息增益数值进行数据分类后的信息总量;Pi表示的是数据属性变量i出现的概率数值;l表示的是属性A不同取值的数量;n表示的是训练集合中数据样本j的总数量。

根据式(1)的信息增益计算结果对属性分类操作进行优化选择,直至达到迭代次数为止,输出结果即为电网多级数据分类处理结果,记为{K1,K2,⋯,Kq}[10]。其中,q表示的是电网多级数据划分类别的总数量。

由此完成了电网多级数据的分类处理,能够将相同属性的数据划分为同一类别,方便后续冗余数据检测与清除研究的进行。

1.3冗余数据检测清除程序制定

以上节的电网多级数据分类处理结果{K1,K2,⋯,Kq}为依据,利用遗传算法与标准粒子群融合算法(GA-PSO),对冗余数据进行检测与清除。

单一的遗传算法与标准粒子群算法虽然也能够实现冗余数据的检测与清除,但是其操作过程较为复杂,收敛效果不佳,使得冗余数据清除准确性较低[11-12]。因此,此研究对上述两种算法进行了融合,提取两个算法的优势部分,摒弃两个算法的劣势部分,最大限度提升冗余数据检测与清除性能[13]。基于GA-PSO算法的冗余数据检测与清除具体流程如下所示:

step 1:对粒子群进行初始化处理,并对其参数进行设置,例如最大迭代次数、种群规模等。

step 2:构造适应度函数f。依据电网数据的主题性、可获得性、质量、规范性、权威性、可用性和时效性等多级属性,设置适应度函数f为多级属性关联数据的距离,表达式为:

式中,d(xi,xj)表示的是任意两个电网属性xi与xj之间的距离,即适应度数值;dxij表示的是xi完全变换成xj的距离;dxji表示的是xj变换成xi的距离。

以式(2)计算结果为依据,制定冗余数据检测判定规则,具体如下式所示:

式中,ζ表示的是冗余数据检测判定阈值,计算公式为:

式中,xi为电网数据的主题性、可获得性、质量、规范性、权威性、可用性和时效性等多级属性指标的关联权重值。

step 3:利用遗传算法对粒子群的群体极值与个体极值进行交叉操作,计算交叉操作后粒子(数据属性)的适应度数值。根据式(3)所示原则,对0

step 4:在个体中任意选择变异点,将变异点上存储的电网多级数据进行互换处理。

step 5:重复迭代进行step 3-step 4,直至达到最大迭代次数为止,输出结果即为清除冗余数据后的电网多级数据集合[14-16]。

通过上述过程实现了电网多级冗余数据的检测与清除,使得电网多级数据整体质量得到了大幅度提升,也为后续电网多级数据的处理与应用提供了助力。


2、测试与结果分析


2.1测试准备

以2021年某市城区内配电网中的10 kV变电站容载比数据作为研究对象。测试服务器配置是Intel Pentinum D,网卡配置为100 Mbps,远程服务器配置是Intel Xeon3.07HGz,内存是531 MB,操作系统为Windows 8,网络区域网操作系统是RHEL 5.5。为了直观显示提出方法的应用性能,选取冗余数据查全率与查准率作为冗余数据清除准确性指标,计算公式为:

式中,R表示的是冗余数据查全率;D表示的是正确检测出的冗余数据数量;B表示的是实际的冗余数据数量;S表示的是冗余数据查准率;V表示的是检测出的冗余数据总数量(包含准确检测结果与错误检测结果)。根据式(5)可知,查全率与查准率与数据清除性能呈正相关关系,即冗余数据查全率与查准率越大,冗余数据清除准确性越好。

2.2算法分类效果测试

使用的GA-PSO算法相关参数设置如表1所示。

表1算法参数设置

设置文献[1]方法为对比方法1,文献[2]方法为对比方法2。通过测试分析三种算法的数据属性分类误差收敛效果,如图2所示。

图2数据分类误差收敛效果

如图2所示,文章设计的GA-PSO算法通过50次迭代即可实现分类误差为0的收敛目标,而其他两种方法未在最大迭代次数内完成收敛目标。

2.3冗余清除效果分析

在十种不同体量数据工况下测试三种方法的冗余数据清除查全率与查准率,如图3所示。

图3冗余数据查全率与查准率示意图

如图3(a)数据所示,提出方法应用后冗余数据清除查全率最小值为80%,大于两种对比方法。如图3(b)数据所示,该文方法应用后,获得的冗余数据清除查准率最小值为81%,大于两种对比方法。

通过上述测试结果数据可知,相较于两种对比方法,应用该文方法后,冗余数据清除的查全率与查准率数值更大,说明该文方法能够更加全面、准确地检测并清除冗余数据。


3、结束语


智能电网冗余数据使得数据存储空间过大,后续处理程序较为繁琐,因此提出基于决策树算法的电网多级冗余数据清除方法研究。测试结果表明提出方法大幅度提升了冗余数据查全率与查准率,可以更有效地检测与清除电网多级数据中的冗余数据,解决了智能电网数据库空间节约的问题。


参考文献:

[1]邰建豪,杨冉.无人机倾斜摄影冗余数据删除算法[J].测绘工程,2022,31(4):11-17.

[2]唐忠立,张宏奎,汤鑫,等.基于层次规则的OSM建筑物面目标冗余清理[J].北京测绘,2021,35(8):1018-1025.

[3]谢裕清,王渊,江樱,等.便于数据共享的电网数据湖隐私保护方法[J].计算机工程与应用,2021,57(2):113-118.

[4]张利华,王欣怡,胡方舟,等.基于双联盟链的智能电网数据共享模型[J].计算机应用,2021,41(4):963-969.

[5]荀华,韩建春.电力企业生产数据多维度质量分析及处理[J].内蒙古电力技术,2021,39(1):46-49.

[6]郭艳卿,王鑫磊,付海燕,等.面向隐私安全的联邦决策树算法[J].计算机学报,2021,44(10):2090-2103.

[7]李鹏,雷雨秋,刘宗杰,等.基于决策树算法的断路器弹簧操动机构振动诊断技术[J].高压电器,2021,57(9):1-8,18.

[8]钱肖,马翔,吕磊炎,等.基于知识图谱的电网调度告警关联规则与决策树算法[J].电气传动,2022,52(22):60-65.

[9]刘海鸥,卢佳兴,彭建鑫,等.基于决策树算法的AMT挂挡过程冗余控制研究[J].北京理工大学学报,2022,42(1):63-73.


基金资助:国网冀北经研院科技项目(B3018F21000U);


文章来源:齐霞,安磊.基于决策树算法的电网多级冗余数据清除方法[J].电子设计工程,2024,32(18):119-122.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

电子设计工程

期刊名称:电子设计工程

期刊人气:3202

期刊详情

主管单位:九三学社陕西省委员会

主办单位:西安市三才科技实业有限公司

出版地方:陕西

专业分类:电子

国际刊号:1674-6236

国内刊号:61-1477/TN

邮发代号:52-142

创刊时间:1994年

发行周期:半月刊

期刊开本:大16开

见刊时间:10-12个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定