摘要:传统电力工程数据稽核与评估方法的准确率偏低且效率较差,不适用于当前日益复杂的信息处理与分析工作。针对此,文中基于改进的随机森林算法提出了一种面向电力工程的异常数据检测算法。对于随机森林算法易受高维数据影响而导致信息特征提取能力不足的问题,该算法利用堆栈稀疏自编码器对高维数据进行降维,以提升数据检测的准确率。同时使用麻雀搜索算法对数据特征提取模型的参数加以优化,进一步提升了算法的性能和效率。在以电力工程造价数据为样本展开的实验测试中,所提算法的AUC与F1值领先于SSAE-RF算法2.73%及0.011,且异常数据识别率可达80%,运行时间也在对比算法中为最短,表明其具有较好的性能和计算效率。
加入收藏
随着我国电网规模的日益扩大,能源建设的投入也在持续增加。其中,电力改造工程中的造价数据是决定工程整体管理水平的重要环节,准确、合理的数据分析有助于提升项目管理的水平并高效推进项目的整体进展[1-3]。同时,在施工过程中由于受复杂的环境因素影响,各分段的子项目技术标准也会存在差异,因此所涉及到的数据具有多维性及海量性的特点。
工程管理系统的传统方法是专业技术人员进行手工录入,后期再根据稽核人员的复查结果加以修正,其对异常数据的检查主要通过对比前后显示信息得到。该方式的效率较低,且仅通过数值也无法对整体数据进行核验。因此,该文基于改进随机森林算法(Improved Random Forest,IRF),从多个维度对电力工程的造价数据进行准确、高效的分析,以提升项目的管理水平。
1、基于IRF的异常数据检测算法
1.1决策树与随机森林
随机森林算法(Random Forest,RF)的基本思想是使用多棵决策树对样本序列进行训练并预测,其可分为决策树生成和森林生成两个部分[4-6]。其中,决策树是一种包含叶子节点、中间节点以及根节点的树状模型。随机森林由多棵不相关的决策树组成,而决策树生成则有多种算法,目前最常用的是分类与回归树法(Classification and Regression Tree,CART)。CART主要是利用二分递归对节点进行分类,且分类及递归分别采用了最小基尼指数法与平方误差最小法。
假定数据集D根据m类特征切分成不同的属性子集合Ci,其基尼指数可表示为:
式中,pi为Ci属性出现的频率。而递归使用平方误差最小法,将输入数据分为R1和R2两个部分,分别表征如下:
则最小平方误差可表示为:
当决策树生成后便可组成森林。假定数据集D={(xi,yj),i=1,2,…,N;j=1,2,…,M},随机森林算法的流程如下:
1)对数据集中的数据进行重抽样,随机生成k个样本训练集[m1,m2…,mk],同时生成决策树{Tr(x,m1),Tr(x,m2),…,Tr(x,mk)};
2)构建随机森林,由上述步骤中的决策树迭代生成,在训练样本中选择m个变量并令其进行节点生长;
3)假定观测值xi不为零且为叶节点,则该节点值的权重如下:
其中,l为相应层的权重函数,#为调节因子。
4)根据式(5)计算单棵树预测值与实际值之间的误差,对于所有随机森林的预测值,可描述如下:
式中,Yi为因变量的值。随机森林算法的流程如图1所示。
图1随机森林算法流程
1.2基于SAE的特征空间重定向算法
随机森林算法通过多棵决策树的组合对数据进行比对,但当数据维度过高时,若数据特征的信息性较差,则通过随机取样的方式对特征进行选取就会存在一定的缺陷,从而影响决策树的收敛性能。因此,文中对RF算法进行了优化,即使用堆栈自编码器(Stacked Auto Encoder,SAE)[7]将算法的原始特征转换为全新特征空间,进而增强了决策树的鲁棒性及分类性能。
自编码器(AutoEncoder,AE)[8-9]是一种包含输入层、输出层及隐藏层的神经网络框架,其目的是通过学习数据特征进而构造出相关函数,而利用AE可以将高维数据进行降维表达。基础自编码器的网络结构,如图2所示。
自编码器中,使用Sigmoid函数作为其激活函数:
图2自编码器结构
假定编码器神经网络中l层的第i个神经元的值为ail,此时迭代后下一层神经元的值可表征为:
其中,w和b为相应的权重和偏置。
对自编码器进行一定的改进可以降低数据维度,但当编码器神经元数量不对等时,容易发生恒等输出或升维输出的现象,所以该文使用堆栈稀疏自编码器(Stacked Sparse Autoencoder,SSAE)[10-12]来完成优化。堆栈自编码器可以对深度网络进行多层堆叠,上一层网络的特征输出可以作为输入值进入到下一层的网络中。文中使用包含有两层自编码器的模型,同时将其稀疏化以增强模型的性能,具体如图3所示。
图3堆栈稀疏自编码器的结构
模型的执行过程为:
1)预训练阶段,将输入数据传输至自编码器中,并对数据初阶特征进行提取,其一阶特征值如式(8)所示;
2)将输入的一阶特征值作为下一阶的输入,且以递归的方式逐步训练网络;
3)对数据进行分类,将最后一层网络的隐藏层激活值作为分类器的输入并加以训练,进而获得最终的结果。
1.3基于改进SSA的参数优化方法
麻雀搜索算法(Sparrow Search Algorithm,SSA)[13-16]是一种启发式智能算法,其基本思想为:在一定数量的数据种群中按照随机规则对目标值进行搜寻。此次使用SSA对随机森林算法的相关参数进行优化,以达到最优性能[17-18]。
假定种群中的麻雀数量为n,此时种群X可表示为[x1,x2,…,xn]T,按照不同功能可将麻雀分为发现者、追踪者以及看护者。
发现者负责对食物所在的区域进行搜索,当发现天敌时,所有个体均要离开觅食区域。其位置更新过程如下:
式中,t为迭代次数,α为对应的控制参数;Ale表示实际警戒值;S1为安全警戒阈值;Q为正态分布随机数;D0为一维全1矩阵。
追踪者为发现者的并行搜索个体,其以个体的一半数量作为更新触发的条件,且当追踪者大于n/2时表示适应度低。因此需要去另一个区域搜索食物,反之则加入当前区域共同寻找食物。追踪者的位置更新如下所示:
其中,A+正则参数,L为搜寻区域。
而看护者则可用来警戒,以适应度值作为位置更新的触发条件,更新公式为:
式中,fi、fg和fj分别为个体的实际、最优及最差适应度。由此可见,发现者、追踪者以及看护者可以使种群在一定规则下进行最优目标的搜寻。之后再根据随机的数值对适应度加以计算并排序,满足结束条件后算法停止运行。
1.4算法整体结构
该文算法的整体结构如图4所示,其由预处理模块、数据特征提取模块、参数优化模块与结果输出模块所组成。其中,数据预处理模块使用堆栈稀疏自编码器对数据特征进行降维处理;数据特征提取模块利用随机森林算法进行特征提取并分类;参数优化模块对堆栈稀疏自编码器以及随机森林算法的参数加以优化,以获得更优的数据结果;而结果输出模块,则根据样本集合测试结果对异常数据点进行输出。
图4该文算法的结构
2、实验与分析
2.1实验数据与环境
为验证所提改进随机森林算法的性能,文中使用某地区2015—2021年共50个电网基建的造价数据样本作为训练集和验证集,并在其中随机加入了噪声数据。同时使用相同的环境运行该文改进算法与对比算法,实验环境参数如表1所示。
表1实验环境参数
2.2仿真测试
异常数据的检测可以看作是二分类问题,所以文中使用二分类评价指标AUC和F1值来进行评估。
为了便于观测实验结果,在进行数据训练前需要确定随机森林的决策树数量,并将AUC作为指标,且随机选择10个数据集来完成训练,实验结果如图5所示。
图5 AUC与迭代次数训练结果
从图5中可以看到,决策树的取值范围为100~600,而随着决策树数量的增加,AUC的指标也在逐渐提升,但二者的关系并非完全线性的。因此,根据实验结果,同时为了兼顾运行时间,文中选择220作为决策树的数量。在消融实验中,文中选择了RF、SSA-RF、SSAE-RF、PSO-RF和AE-RF作为对比算法。其中基础算法是RF,SSA-RF与PSO-RF为优化算法加基础算法,而SSAE-RF及AE-RF算法则为编码器网络加基础算法。各算法在数据集中的性能测试结果如表2所示。
表2不同算法的性能测试结果
由表2可知,基础算法RF的AUC值和F1值最差,这表明基础算法异常数据检测能力不佳;加入自编码器后,算法AUC值和F1值分别提升了1.13%和0.068;引入参数优化算法SSA则可使算法的AUC与F1值增加2.42%及0.05。而该文算法由于结合了改进自编码器和优化算法,因此AUC值与F1值在所有算法中均为最高,由此表明该算法的改进是行之有效的。
在对比实验中,使用SVM、BP神经网络、LSTM、KNN以及LOF算法来与该文算法进行比较。测试指标为识别个数与算法的运行时间,并随机放置了90个异常数据。对比实验结果如表3所示。
表3不同算法的识别率与运算耗时
由表3的测试结果可以看出,该文算法和LSTM算法的识别率均在80%以上,而识别率也领先于其他算法。但该文算法的运行时间在所有对比算法中为最短,且相较LSTM算法缩短了约135 min,这表明该文算法在准确率较高的同时还可保持良好的效率。
3、结束语
现代电力智慧基建造价数据的维度较高且数据量大,使用传统稽核方法的效率较低,出错率也偏高。对此,该文提出了一种面向能源工程评估的异常数据检测算法。该算法对随机森林进行改进,并使用SSAE降低数据的维度,进而提升了算法的训练准确度和效率。同时还利用SSA算法对模型的参数加以优化,进一步提升了算法的性能。在实验测试中,该文算法的性能及效率均较优,具有良好的工程实用价值。
参考文献:
[1]杨文生,王雁宇,李海清,等.基于BP神经网络的电力工程异常数据识别技术研究[J].电子设计工程,2021,29(7):157-160,165.
[2]袁炜灯,陈威洪,萧嘉荣,等.基于大数据混沌特性的电网在线监测异常数据识别方法[J].微型电脑应用,2021,37(7):71-74.
[3]戴小凤,朱卫东.基于卷积神经网络的电力工程造价数据异常识别方法[J].兰州工业学院学报,2022,29(4):62-66.
[4]汪力纯,刘水生.基于混合采样和特征选择的改进随机森林算法研究[J].南京邮电大学学报(自然科学版),2022,42(1):81-89.
[5]刘紫亮,居翔,张永芳,等.基于改进随机搜索算法的随机森林调参优化[J].网络安全技术与应用,2022(4):49-51.
[6]王诚,赵晓培.基于混合采样的改进随机森林算法研究[J].计算机技术与发展,2021,31(12):50-54,91.
[7]王铁强,鲁鹏,曹欣,等.基于堆叠自动编码器的电网运行断面相似性匹配研究[J].电力建设,2021,42(1):117-124.
[8]张国芳,刘通宇,温丽丽,等.基于变分自编码器的日线损率异常检测研究[J].华东师范大学学报(自然科学版),2020(5):146-155.
[9]蔚焘,成卫青.基于记忆增强的对抗自编码器异常检测算法[J].南京邮电大学学报(自然科学版),2021,41(6):84-94.
基金资助:国网甘肃省电力公司技改检修项目(2022010640);
文章来源:马林.一种面向能源工程数据评估的改进随机森林算法设计[J].电子设计工程,2024,32(18):57-61.
分享:
软件系统和应用程序中经常面临特征数据缺失的情况,如物联网数据、医疗数据、材料数据等,数据缺失可能导致学习算法或程序性能下降甚至不可用。导致数据缺失的原因较多,如调研项目无回应、意外丢失或传输错误等。为了解决数据缺失问题,研究人员提出了一些有效的填补方法,按照采用技术的不同,可以分为基于统计学的方法和基于学习的方法。
2024-12-05智慧社区监控系统的研究和应用是当今社区管理领域的热点话题之一。随着城市化进程的不断推进和社会治理水平的提高,社区管理面临着日益复杂和多样化的安全挑战。在传统社区管理模式下,对于社区内安全事件的监测和管理往往依赖人工力量,存在着监控盲区、反应滞后、管理成本高等问题,限制了社区管理效率和安全防范水平的提升。
2024-12-04电力物联网作为物联网的一个重要应用领域,以其智能电网为基础,通过物联网、大数据、云计算等先进技术手段,实现了对电网所有数据的全面感知、收集、存储、计算与交换。这一领域的快速发展不仅极大地提升了电网的运行效率和智能化水平,同时也带来了前所未有的数据隐私保护挑战。
2024-12-03“异化”一词源于希腊语中“他者化”一词,指的是主体发展到了一定阶段,分裂出自己的对立面,变为了外在的异己的力量。对于人类社会而言,即表示人类创造出的产物与人类本体分离,并成为一种外在的负面异己力量与人类本体相对立,乃至最终凌驾于人类本体之上,使人类的本体性逐渐丧失。
2024-11-05城市品牌是当前城市研究中的热点概念。根据杜青龙的观点,城市品牌即城市可以在营销历史、生活方式和文化等资源的过程中,获取资本积累的机会、声望。城市品牌既是城市自然地理、历史人文、经济政治等的精准提炼与符号化表达,也是城市形象构建的核心资源。因此,加强城市品牌营销,已成为当前城市发展的重点。
2024-11-05电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。
2024-09-20随着我国电网规模的日益扩大,能源建设的投入也在持续增加。其中,电力改造工程中的造价数据是决定工程整体管理水平的重要环节,准确、合理的数据分析有助于提升项目管理的水平并高效推进项目的整体进展。同时,在施工过程中由于受复杂的环境因素影响,各分段的子项目技术标准也会存在差异,因此所涉及到的数据具有多维性及海量性的特点。
2024-09-19随着科学技术的不断发展和进步,数字化技术已经广泛应用于各个领域。在建筑行业中,BIM技术已经成为数字化转型的核心技术。数字化工厂设计系统是以BIM技术为基础,实现了从建筑设计到设备安装、调试、运行的整个过程的数字化设计与协调。本文研究了基于BIM技术的数字化工厂设计系统的构建及应用,以期提高工厂设计的质量和效率。
2024-08-26随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04人气:3432
人气:2440
人气:2393
人气:2322
人气:2227
我要评论
期刊名称:电子设计工程
期刊人气:3200
主管单位:九三学社陕西省委员会
主办单位:西安市三才科技实业有限公司
出版地方:陕西
专业分类:电子
国际刊号:1674-6236
国内刊号:61-1477/TN
邮发代号:52-142
创刊时间:1994年
发行周期:半月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.333
影响因子:0.315
影响因子:0.438
影响因子:0.000
影响因子:0.527
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!