摘要:电网多级冗余数据浪费存储空间,影响数据应用质量。为了提高冗余数据清除准确性,提出基于决策树算法的电网多级冗余数据清除方法。根据电网多级数据处理需求,搭建电网多级冗余数据清除框架;引入决策树算法分类处理多级数据,为冗余数据清除提供便利。融合遗传算法与标准粒子群算法(GA-PSO算法),制定冗余数据检测判定规则,实现电网多级冗余数据的清除。测试结果显示,应用提出方法后,冗余数据查全率最大值为98%,冗余数据查全率最大值为99%,解决了冗余数据处理准确性不高的问题。
加入收藏
电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。因此,如何对电网多级数据中的冗余数据进行清除成为亟待解决的问题。
无人机倾斜摄影冗余数据删除算法[1]主要是通过构建成像模型,识别和去除冗余数据;基于层次规则的冗余数据清除方法[2]依据数据拓扑关系分类处理海量数据,利用层次规则清除冗余数据。上述两种方法的冗余检测算法准确性不足,无法有效清除多级冗余数据。为此提出基于决策树算法的电网多级冗余数据清除方法,解决了难以从电网多级数据中准确清除冗余数据的问题。
1、电网多级冗余数据清除方法研究
1.1冗余数据清除框架搭建
根据电网多级数据处理的准确性需求,有效节约空间,搭建电网多级冗余数据清除框架,具体如图1所示。
图1电网多级冗余数据清除框架示意图
如图1所示,电网多级冗余数据清除框架主要划分为三个阶段。阶段一承担着电网多级数据分类处理任务,能够清晰地将多属性数据划分为不同类别,为后续检测提供便利;阶段二承担着冗余数据检测的任务,有效融合了遗传算法与标准粒子群算法,最大限度提升冗余数据的检测精度;阶段三承担着冗余数据清除任务,清除方式为自动与手动联合,节约数据库空间。
1.2电网多级数据分类处理
基于上节搭建的冗余数据清除框架,引入决策树算法对电网多级数据进行分类,为冗余数据的检测及其清除提供便利。
构建数据分类决策树,具体步骤如下:
步骤一:建立电力数据库空堆栈,设置初始迭代次数为1,最大迭代次数为100;
步骤二:判断节点T中包含的多级属性样本数量NT是否等于或者小于阈值N∗,若NT≤N∗,生成叶子节点,转置步骤五;若NT>N∗,转置步骤三[3-6];
步骤三:根据节点属性与电网多级数据关系Ta生成候选优化集合,并计算信息增益衡量数据价值;
步骤四:依据步骤三计算的信息增益,对当前优化操作是否为加边操作进行判断。若是加边操作,则将边终点的节点设置为活动阶段,并对节点列表进行更新;若非加边操作,则在优化操作的基础上,生成节点T的互补左、右子树,并将其充入栈中;
步骤五:判断数据库空堆栈是否为空。当空堆栈不为空,将栈顶元素赋值给节点T,转置步骤二迭代运算;当空堆栈为空时,输出结果即为决策树的分类结果[7]。
通过上述步骤可以看出,利用决策树分类过程中信息增益计算至关重要,其决定着优化操作的衡量精度[8-9]。传统决策树算法存在扫描效率低、占用内存大的缺点,因此文中通过分裂总熵值对决策树信息增益的衡量精度进行优化。计算决策树节点分裂的总熵值和数据概率,对多级电力数据中的各个属性进行排序,将信息增益最高的属性作为电网多级数据分类的主节点。信息增益计算公式为:
式中,G(A)表示的是电网多级数据属性A对应的信息增益数值;F(x1,x2,⋯,xm)表示的是决策树节点xm分裂的总熵值;m表示的是电网多级数据划分类别的数量;E(A)表示的是依据属性A的每个信息增益数值进行数据分类后的信息总量;Pi表示的是数据属性变量i出现的概率数值;l表示的是属性A不同取值的数量;n表示的是训练集合中数据样本j的总数量。
根据式(1)的信息增益计算结果对属性分类操作进行优化选择,直至达到迭代次数为止,输出结果即为电网多级数据分类处理结果,记为{K1,K2,⋯,Kq}[10]。其中,q表示的是电网多级数据划分类别的总数量。
由此完成了电网多级数据的分类处理,能够将相同属性的数据划分为同一类别,方便后续冗余数据检测与清除研究的进行。
1.3冗余数据检测清除程序制定
以上节的电网多级数据分类处理结果{K1,K2,⋯,Kq}为依据,利用遗传算法与标准粒子群融合算法(GA-PSO),对冗余数据进行检测与清除。
单一的遗传算法与标准粒子群算法虽然也能够实现冗余数据的检测与清除,但是其操作过程较为复杂,收敛效果不佳,使得冗余数据清除准确性较低[11-12]。因此,此研究对上述两种算法进行了融合,提取两个算法的优势部分,摒弃两个算法的劣势部分,最大限度提升冗余数据检测与清除性能[13]。基于GA-PSO算法的冗余数据检测与清除具体流程如下所示:
step 1:对粒子群进行初始化处理,并对其参数进行设置,例如最大迭代次数、种群规模等。
step 2:构造适应度函数f。依据电网数据的主题性、可获得性、质量、规范性、权威性、可用性和时效性等多级属性,设置适应度函数f为多级属性关联数据的距离,表达式为:
式中,d(xi,xj)表示的是任意两个电网属性xi与xj之间的距离,即适应度数值;dxij表示的是xi完全变换成xj的距离;dxji表示的是xj变换成xi的距离。
以式(2)计算结果为依据,制定冗余数据检测判定规则,具体如下式所示:
式中,ζ表示的是冗余数据检测判定阈值,计算公式为:
式中,xi为电网数据的主题性、可获得性、质量、规范性、权威性、可用性和时效性等多级属性指标的关联权重值。
step 3:利用遗传算法对粒子群的群体极值与个体极值进行交叉操作,计算交叉操作后粒子(数据属性)的适应度数值。根据式(3)所示原则,对0
step 4:在个体中任意选择变异点,将变异点上存储的电网多级数据进行互换处理。
step 5:重复迭代进行step 3-step 4,直至达到最大迭代次数为止,输出结果即为清除冗余数据后的电网多级数据集合[14-16]。
通过上述过程实现了电网多级冗余数据的检测与清除,使得电网多级数据整体质量得到了大幅度提升,也为后续电网多级数据的处理与应用提供了助力。
2、测试与结果分析
2.1测试准备
以2021年某市城区内配电网中的10 kV变电站容载比数据作为研究对象。测试服务器配置是Intel Pentinum D,网卡配置为100 Mbps,远程服务器配置是Intel Xeon3.07HGz,内存是531 MB,操作系统为Windows 8,网络区域网操作系统是RHEL 5.5。为了直观显示提出方法的应用性能,选取冗余数据查全率与查准率作为冗余数据清除准确性指标,计算公式为:
式中,R表示的是冗余数据查全率;D表示的是正确检测出的冗余数据数量;B表示的是实际的冗余数据数量;S表示的是冗余数据查准率;V表示的是检测出的冗余数据总数量(包含准确检测结果与错误检测结果)。根据式(5)可知,查全率与查准率与数据清除性能呈正相关关系,即冗余数据查全率与查准率越大,冗余数据清除准确性越好。
2.2算法分类效果测试
使用的GA-PSO算法相关参数设置如表1所示。
表1算法参数设置
设置文献[1]方法为对比方法1,文献[2]方法为对比方法2。通过测试分析三种算法的数据属性分类误差收敛效果,如图2所示。
图2数据分类误差收敛效果
如图2所示,文章设计的GA-PSO算法通过50次迭代即可实现分类误差为0的收敛目标,而其他两种方法未在最大迭代次数内完成收敛目标。
2.3冗余清除效果分析
在十种不同体量数据工况下测试三种方法的冗余数据清除查全率与查准率,如图3所示。
图3冗余数据查全率与查准率示意图
如图3(a)数据所示,提出方法应用后冗余数据清除查全率最小值为80%,大于两种对比方法。如图3(b)数据所示,该文方法应用后,获得的冗余数据清除查准率最小值为81%,大于两种对比方法。
通过上述测试结果数据可知,相较于两种对比方法,应用该文方法后,冗余数据清除的查全率与查准率数值更大,说明该文方法能够更加全面、准确地检测并清除冗余数据。
3、结束语
智能电网冗余数据使得数据存储空间过大,后续处理程序较为繁琐,因此提出基于决策树算法的电网多级冗余数据清除方法研究。测试结果表明提出方法大幅度提升了冗余数据查全率与查准率,可以更有效地检测与清除电网多级数据中的冗余数据,解决了智能电网数据库空间节约的问题。
参考文献:
[1]邰建豪,杨冉.无人机倾斜摄影冗余数据删除算法[J].测绘工程,2022,31(4):11-17.
[2]唐忠立,张宏奎,汤鑫,等.基于层次规则的OSM建筑物面目标冗余清理[J].北京测绘,2021,35(8):1018-1025.
[3]谢裕清,王渊,江樱,等.便于数据共享的电网数据湖隐私保护方法[J].计算机工程与应用,2021,57(2):113-118.
[4]张利华,王欣怡,胡方舟,等.基于双联盟链的智能电网数据共享模型[J].计算机应用,2021,41(4):963-969.
[5]荀华,韩建春.电力企业生产数据多维度质量分析及处理[J].内蒙古电力技术,2021,39(1):46-49.
[6]郭艳卿,王鑫磊,付海燕,等.面向隐私安全的联邦决策树算法[J].计算机学报,2021,44(10):2090-2103.
[7]李鹏,雷雨秋,刘宗杰,等.基于决策树算法的断路器弹簧操动机构振动诊断技术[J].高压电器,2021,57(9):1-8,18.
[8]钱肖,马翔,吕磊炎,等.基于知识图谱的电网调度告警关联规则与决策树算法[J].电气传动,2022,52(22):60-65.
[9]刘海鸥,卢佳兴,彭建鑫,等.基于决策树算法的AMT挂挡过程冗余控制研究[J].北京理工大学学报,2022,42(1):63-73.
基金资助:国网冀北经研院科技项目(B3018F21000U);
文章来源:齐霞,安磊.基于决策树算法的电网多级冗余数据清除方法[J].电子设计工程,2024,32(18):119-122.
分享:
软件系统和应用程序中经常面临特征数据缺失的情况,如物联网数据、医疗数据、材料数据等,数据缺失可能导致学习算法或程序性能下降甚至不可用。导致数据缺失的原因较多,如调研项目无回应、意外丢失或传输错误等。为了解决数据缺失问题,研究人员提出了一些有效的填补方法,按照采用技术的不同,可以分为基于统计学的方法和基于学习的方法。
2024-12-05智慧社区监控系统的研究和应用是当今社区管理领域的热点话题之一。随着城市化进程的不断推进和社会治理水平的提高,社区管理面临着日益复杂和多样化的安全挑战。在传统社区管理模式下,对于社区内安全事件的监测和管理往往依赖人工力量,存在着监控盲区、反应滞后、管理成本高等问题,限制了社区管理效率和安全防范水平的提升。
2024-12-04电力物联网作为物联网的一个重要应用领域,以其智能电网为基础,通过物联网、大数据、云计算等先进技术手段,实现了对电网所有数据的全面感知、收集、存储、计算与交换。这一领域的快速发展不仅极大地提升了电网的运行效率和智能化水平,同时也带来了前所未有的数据隐私保护挑战。
2024-12-03“异化”一词源于希腊语中“他者化”一词,指的是主体发展到了一定阶段,分裂出自己的对立面,变为了外在的异己的力量。对于人类社会而言,即表示人类创造出的产物与人类本体分离,并成为一种外在的负面异己力量与人类本体相对立,乃至最终凌驾于人类本体之上,使人类的本体性逐渐丧失。
2024-11-05城市品牌是当前城市研究中的热点概念。根据杜青龙的观点,城市品牌即城市可以在营销历史、生活方式和文化等资源的过程中,获取资本积累的机会、声望。城市品牌既是城市自然地理、历史人文、经济政治等的精准提炼与符号化表达,也是城市形象构建的核心资源。因此,加强城市品牌营销,已成为当前城市发展的重点。
2024-11-05电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。
2024-09-20随着我国电网规模的日益扩大,能源建设的投入也在持续增加。其中,电力改造工程中的造价数据是决定工程整体管理水平的重要环节,准确、合理的数据分析有助于提升项目管理的水平并高效推进项目的整体进展。同时,在施工过程中由于受复杂的环境因素影响,各分段的子项目技术标准也会存在差异,因此所涉及到的数据具有多维性及海量性的特点。
2024-09-19随着科学技术的不断发展和进步,数字化技术已经广泛应用于各个领域。在建筑行业中,BIM技术已经成为数字化转型的核心技术。数字化工厂设计系统是以BIM技术为基础,实现了从建筑设计到设备安装、调试、运行的整个过程的数字化设计与协调。本文研究了基于BIM技术的数字化工厂设计系统的构建及应用,以期提高工厂设计的质量和效率。
2024-08-26随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04人气:3432
人气:2443
人气:2394
人气:2322
人气:2227
我要评论
期刊名称:电子设计工程
期刊人气:3202
主管单位:九三学社陕西省委员会
主办单位:西安市三才科技实业有限公司
出版地方:陕西
专业分类:电子
国际刊号:1674-6236
国内刊号:61-1477/TN
邮发代号:52-142
创刊时间:1994年
发行周期:半月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.333
影响因子:0.315
影响因子:0.438
影响因子:0.000
影响因子:0.527
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!