摘要:电力工程信息的智能化检测与分析大多是基于数字类型的数据来展开的,而对于工程建设中文本型数据的检测模型而言,在检测准确度与检测速度方面均存在较大的改进空间。针对这一问题,文中构建了一套基于改进剪枝策略的专业大数据主要特征提取模型,以提高对专业文本数据的处理能力,实现对电力工程项目的全面评估。该模型通过深度神经网络对电力工程数据进行特征提取,并对数据特征进行结构分析,通过数据特征与风险库信息的相似度匹配,实现了对电力工程信息的风险判别。以某电力工程项目文本数据进行的评估测试结果表明,文中所提方法能够准确地提取出电力工程文本型数据的关键特征,并且可以分析挖掘出数据所蕴含的风险。
加入收藏
在电力工程项目的实施过程中会产生大量的电力工程建设数据[1-2],而对相关数据进行分析可以深入挖掘已有数据的深层价值,实现工程建设的提质增效[3-5]。随着大数据和自然语言处理等技术的进步,通过人工智能技术对工程数据进行分析已成为研究热点。采用人工智能技术,文献[6]实现了电力企业文本数据自动对比和风险评估,降低了人工处理的时间与成本,并且提高了审核的准确性;文献[7]实现了自动识别数据中可能存在的漏洞、模糊条款等,并提出相应的建议和预警。尽管人工智能技术在数据审核方面有着广泛的应用,但其仍有较大的改进空间。
针对此,提出了一种基于改进剪枝策略的专业大数据主要特征提取方法。该方法通过深度神经网络(DeepNeuralNetwork,DNN)对工程数据进行深层挖掘,采用特征选择和特征剪枝两种技术,对神经网络模型进行优化,实现了对电力工程数据的快速特征提取。此外,通过对工程与风险库数据进行相似性匹配,还实现了工程信息的风险隐患分析及评估。
1、基于神经网络的文本信息识别模型
当前对文本内容的审核分析研究模型主要分为基于规则与基于机器学习的两种。随着自然语言处理技术[8-9]的进步,审查内容的复杂度逐渐提高,从基本的格式审查已发展到对文本风险的审查。该文采用语义检索对文本数据进行关键词配对,实现了语义语法的统一匹配。
该模型采用文本浅层语义进行构建,具体流程如图1所示。
图1语义构建流程图
对文本信息进行语义匹配后,采用深度学习算法(DeepLearning,DL)分析其相关权重[10]。关键词的TF权重与其在文本中出现频率成正相关;IDF权重与该关键词在不同样本中的出现频率成负相关。
根据文本数据中所蕴含风险的影响后果对模型风险识别等级进行划分,主要分为低风险、中风险和高风险共3个等级。
通过对文本进行抽象,进而与风险条款库进行匹配,匹配规则如式(1)所示:
其中,NULL表示为空;|表示或,当存在一种关键词时即为成立。通过上述匹配规则对逻辑关系进行分析,当文本中所有相应逻辑位中关键词满足条件后,即可判定为风险匹配成功。相应的匹配关系如图2所示。
图2风险文本检查流程
在对文本进行检测时,首先,对文本数据进行关键词提取,从而构建不同关键词之间的实体关系;然后,通过将检测得到的关键词及其逻辑关系与风险库进行匹配检测,判别文本条款是否存在风险,并根据匹配相似度判断相应的风险等级;最后,当所有关键词及其逻辑关系匹配完成后结束检测。文本信息审查流程如图3所示。
图3文本信息审查流程图
2、基于剪枝策略的模型优化
剪枝模型[11-13]是一种在机器学习中常用的技术,主要用于减少决策树或其他模型的复杂性,并提高模型的泛化能力。剪枝模型的目标是通过删除或合并决策树中的部分节点和子树,以此来降低模型的复杂度,同时保持并提高模型的预测准确性。
剪枝模型通常包括生长和剪枝两个阶段。在生长阶段,决策树会根据训练数据逐步生长。通过选择最佳的分裂点和特征,决策树会不断地划分数据集,直至达到预定的停止条件。在该阶段,决策树可能会过度拟合训练数据,导致模型在未知数据上的表现并不理想。
在剪枝阶段,剪枝模型会通过对决策树进行修剪来降低过拟合风险。剪枝的依据通常是使用验证集或交叉验证等方法,来评估修剪后模型的性能表现。
在采用神经网络[14-16]对文本进行匹配时,首先将文本输入到训练好的剪枝前模型中,此时模型得到相应的数据特征A。根据A所对应的期望值,按照数学期望的升序顺序对数据特征A进行排列,同时按照相应剪枝比率对数据特性所对应的卷积核进行裁剪。通常情况下,卷积核的特征期望值与所蕴含的信息量成正相关,因此需要对蕴含信息量较少的卷积核进行裁剪。
设神经网络模型共有M层,Si、Si+1分别表示第i层卷积核的输入与输出的特征数,同时,该模型的第i层卷积核数量可表示为Li+1。卷积核输出的特征数据期望值用Eij表示,其计算方式如式(2)所示:
该文基于稀疏化尺度因子b进行卷积通道选择,采用这种方式对卷积核输出特征进行处理,其计算公式可用式(3)表示:
其中,zin表示输入数据;zˉ表示卷积核输入数据的平均值;σ2表示相应数据的方差;ε为计算系数。
对于特征向量的缩放因子,设其缩放因子为γ,则其平均缩放因子为:
通过对缩放因子进行正则化,其分布会向0的方向稀疏,以增强对于卷积核不同重要程度的区分度。在网络训练过程中,重要卷积核的缩放因子会向平均值正方向偏移,而不重要的卷积核缩放因子会向0偏移。而超参数t能够对网络的稀疏程度进行控制。
图4对剪枝策略的流程进行了说明。根据卷积核输出的特征数据计算相应卷积核期望,通过对期望进行排序,剪裁掉期望较小的卷积核,实现了对神经网络结构的优化。其中,所剪裁的卷积核数量由该卷积核所在的神经网络层的总卷积核数量及剪枝率来确定。
图4剪枝策略的流程
3、算例验证
为验证文中所提基于改进剪枝策略的专业大数据主要特征提取模型在合同风险审核方面的准确性与有效性,文中采用50组合同样本进行分析,其中每组样本包含10个合同。通过与传统文本分析方法进行对比,说明了所提模型的有效性。算例验证的环境配置如表1所示。
表1算例验证环境配置
在模型训练过程中,首先,将样本数据中的文本语言进行碎片化处理,以便输入模型。对于每一条输入数据,均通过神经网络对其进行特征提取,并将文本的特征与风险库数据进行相似性匹配,判断可能存在的风险。接着,采用剪枝策略对卷积核进行裁剪,以达到模型参数量与训练效果的最优解。最后,利用测试样本对训练后模型进行验证。数据风险识别结果如表2所示。
表2模型识别结果对比
通过对表2进行分析可知,该文模型对于可能直接引起经济损失的风险条款均判别为高风险,相比于其他方法识别灵敏度更高,对于电力工程项目的事前风险提示更为准确。与其他方法相比,所提方法不仅考虑了对方履约能力的因素,同时也考虑到己方履约能力出现波动时,相关约定所隐含的风险。
基于神经网络的关键词-逻辑提取模型训练时的损失变化如图5所示。刚开始模型损失较高,说明此时该神经网络未能有效提取出与风险相关的特征参数;随着训练迭代次数的增加,模型损失逐渐降低,这表明模型对文本信息的提取能力正在逐渐提高。当损失趋于一个稳定水平时,说明模型对输入信息的特征提取达到收敛。
图5模型训练过程损失变化图
同时,该文在新一组模型训练中加入剪枝策略并设置不同的剪枝率,具体如表3和表4所示。训练结束发现,相比于传统神经网络模型,改进模型在收敛速度及最终损失稳定水平方面均有所提高。此外,对模型参数量进行统计可以看出,采用剪枝策略模型的参数相比于传统神经网络有所降低,且参数量与剪枝率呈现出负相关的关系。
表3不同模型参数量对比
表4该文模型不同剪枝率参数量对比
4、结束语
该文通过构建基于改进剪枝策略的专业大数据主要特征提取模型,采用深度神经网络和语义神经网络分别对文本数据进行了数字化编码与分析,实现了电力工程领域项目文件的自动审查。并结合剪枝策略降低了神经网络的架构尺寸,进而提高了算力的利用率。最后,通过采用实际电力工程文本数据对所提模型进行验证,结果表明该文模型在识别速度、风险提示等方面均具有一定优势,证明了模型的可行性。
参考文献:
[1]王林峰,张文静,刘云,等.大数据环境下基于BIM与CNN的电力工程造价优化算法[J].沈阳工业大学学报,2024,46(1):7-12.
[2]彭汉钦.面向电网基建工程文件的重要信息提取技术研究[D].北京:华北电力大学,2023.
[3]徐宁,张文静,周波,等.基于FA-ELM深度挖掘模型的电力工程预算控制技术[J].沈阳工业大学学报,2023,45(6):637-642.
[4]鲍海泉,方瑞寅.面向电网工程的智能数据采集与分析验收方法研究[J].电子设计工程,2023,31(20):40-44.
[5]孙安黎,向春,喻建波.基于三维设计主成分分析的电网工程算量信息权重提取方法[J].计算机应用与软件,2023,40(8):104-109.
[6]殷伍平,冯伟,莫志华.文本挖掘下的电网企业管理定量测算模型[J].武汉理工大学学报(信息与管理工程版),2023,45(4):619-624.
[7]王勇,裘建开,严钰君,等.基于弱监督学习的电力信息动态漏洞挖掘系统[J].电子设计工程,2023,31(13):114-117,122.
[8]安俊秀,蒋思畅.面向自然语言处理的词向量模型研究综述[J].计算机技术与发展,2023,33(12):17-22.
[9]刘玉威,曹民,冯浩甲.基于自然语言处理的CNAS认可准则自动对标系统[J].电子科技,2023,36(5):28-33.
[10]刘萌,齐孟津,詹圳宇,等.基于深度学习的图像-文本匹配研究综述[J].计算机学报,2023,46(11):2370-2399.
[11]张玉,武海,林凡超,等.图像识别中的深度学习模型剪枝技术[J].南京理工大学学报,2023,47(5):699-707.
[12]翁佳昊,秦永法,唐晓峰,等.基于多目标优化的车道线检测模型剪枝算法[J].传感器与微系统,2023,42(7):125-127,131.
[13]邵凯,杜自群,王光宇.基于模型剪枝动态调整压缩率的CSI反馈方法[J].系统工程与电子技术,2023,45(8):2615-2622.
[14]邓成汝,凌捷.融合预训练模型与神经网络的实体关系抽取[J].计算机工程与设计,2023,44(7):20232029.
[15]沈鑫,周宇.基于神经网络和信息检索的源代码注释生成[J].计算机系统应用,2023,32(7):1-10.
[16]曹海欧,崔玉,易新,等.基于神经网络的定值名称智能比对方法[J].现代电力,2023,40(4):587-595.
基金资助:国网中兴有限公司电网数字化项目(733400230004);
文章来源:苗立宁,张韫,王利军,等.基于改进剪枝策略的专业大数据主特征提取方法研究[J].电子设计工程,2025,33(05):22-25+30.
分享:
风能、潮汐能、太阳能等可再生能源存在间歇性供应和地域分布不均衡等特点,对自然条件的依赖性很强。因此,开发新型储能材料成为解决这一问题的核心。超级电容器因其具备高功率密度、超快的充放电速率及较长的循环使用寿命成为储能领域中非常重要的一员[1,2]。
2025-09-07根据《智能光伏产业创新发展行动计划(2021—2025年)》的指导,各相关部门推动智能制造与运维融合,国家数据局的成立也为数据资源整合提供了支持[1]。基于大数据、人工智能和物联网技术构建的智慧运维平台,实现了设备实时监测、预测性维护及资源优化调度,显著提升了运维效率,降低了成本并增强了安全性。
2025-09-07新能源是人类传统能源外,以新技术诞生的地热能、太阳能、风能等能源种类,具有可再生、资源丰富的优点,对人类、环境负面影响小,却存在开发难度大问题。而在新能源开发中,采取电气自动化技术,利用先进控制算法,能够提高新能源转换能源效率,如太阳能发电优化阵列倾斜方向。
2025-09-04双进双出钢球磨煤机作为发电厂广泛应用的制粉设备,具有生产效率高、能耗低、不受异物影响等特点。但是,由于煤种特性因素的变化、电网用电需求不确定,煤质与电厂负荷发生变化,要求磨煤机能够及时响应,提高燃烧效率,减少CO2与NOx排放。因此,在发电厂双进双出钢球磨煤机运行中,应结合实际情况,对其进行优化调整,从而推动发电厂可持续发展。
2025-09-04随着电力系统规模的不断扩大和技术的日益复杂,高压输电线路的二次回路面临的故障类型也日趋多样化。目前,专家学者大多对二次回路的继电保护回路、电流电压互感器回路的故障进行了研究,但是基于系统安全的高压输电线路二次回路全方位、全过程的故障研究分析相对缺乏。
2025-09-04电力载波通信(PowerLineCommunication,PLC)作为一种利用电力线进行数据传输的技术,凭借成本低廉和覆盖范围广泛的优势,在众多领域得到了广泛应用[1]。特别是在智能电网、家庭自动化和工业控制等领域,PLC技术能通过现有的电力基础设施实现高效的数据传输[2]。
2025-09-04文献[6]提出基于随机规划的多能源系统日前调度模型,考虑了风电光伏的不确定性,但未纳入光热储能的长期调节能力。文献[7]利用模型预测控制优化光热-光伏联合系统,侧重短期功率平滑,难以适应周计划的时间跨度。文献[8]构建了“风光火储”多目标优化模型,但将储能视为独立单元,忽略了光热发电与储能的一体化特性。
2025-09-04高电压设备通常是在恶劣环境和长期高负荷状态下运行,在运维检修工作不到位情况下,极易造成较大经济损失和人身安全隐患。尤其是绝缘老化现象,导致绝缘层无法对高压电起到良好绝缘效果,出现绝缘击穿、设备故障、通电故障及放电故障等多种问题。
2025-08-29根据国家电网公司抽检试验数据,熔断器主要缺陷集中于上导电片连接处、熔管螺纹接合部等关键部位。材质缺陷与温升异常直接相关,导电部件材质不达标会造成接触电阻增大,正常负荷电流下产生过热现象,长期运行将加速触头氧化和弹性元件老化。
2025-08-29数字化浪潮中,智能工厂建设是企业高质量发展的必然选择。开展基于MES系统的配电盘智能化生产线建设,是提升公司配电盘产能、品质和核心竞争力的重要路径。智能工厂MES模块与产线对接投入生产后,预计投入5年后产量由现有的1200面增至2500面以上,产能得到有效提升。
2025-08-29人气:9197
人气:5268
人气:3826
人气:3165
人气:3099
我要评论
期刊名称:现代电力
期刊人气:3580
主管单位:中华人民共和国教育部
主办单位:华北电力大学
出版地方:北京
专业分类:电力
国际刊号:1007-2322
国内刊号:11-3818/TM
邮发代号:82-640
创刊时间:1984年
发行周期:双月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.814
影响因子:1.445
影响因子:0.657
影响因子:0.000
影响因子:0.688
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!