摘要:为了有效提高基于机器学习的设备异常诊断的精度和效率,提出了一种基于稀疏化支持向量机的故障诊断模型。首先,对异常诊断的原理和特征气体进行了分析,给出了故障类型与特征气体的关系;其次,从4个方面对数据进行预处理,包括清洗、归一化、平衡和划分;然后,针对最小二乘支持向量机普遍存在的稀疏性缺乏问题,提出将数据样本映射到高维的核空间,并通过谱聚类算法对映射后的数据进行核空间距离聚类,以实现最小二乘支持向量机的数据预处理,从而实现其稀疏化;最后,在小样本数据集上进行了具体实验分析。结果表明,对于9种类型的故障,与其他基于不同类型支持向量机的诊断模型相比,所提诊断模型仅需11次迭代就可以获得最大适应度值,平均诊断准确率为96.67%,准确率和效率均更高。
加入收藏
目前,随着智能化技术的提高,基于机器学习的设备故障诊断方法受到了广泛关注[1-2]。其中,油中溶解气体分析(Dissolved Gas-in-oil Analysis, DGA)作为一种常用的电力变压器故障诊断技术,通过分析变压器油中溶解的气体的含量和组成,可以提供有关设备运行状态和潜在故障的信息[3-4]。另一方面,支持向量机(Support Vector Machine, SVM)作为一种机器学习方法,在处理高维数据和大规模数据时具有较好的性能。因此,许多研究人员将DGA与SVM相结合来实现设备故障诊断。
例如,Sahri等[5]提出了一种结合DGA和SVM的电力变压器故障诊断方法。首先从DGA数据中提取特征,包括气体浓度和不同气体的比例;然后,使用SVM作为分类器,根据提取的特征对故障类型进行分类。结果表明,该方法在识别各种类型的变压器故障(如过热、局部放电和绝缘劣化)方面具有较高的准确性。Feng等[6]则采用主成分分析法(Principal Component Analysis, PCA)提取DGA数据变量的特征,并用海鸥优化算法(Seagull Optimization Algorithm, SOA)来提高SVM分类器的准确度,结果表明该SOA-SVM分类器在识别不同故障类型时具有较高的准确率。上述文献均表明了DGA与SVM相结合的方法的有效性。
最小二乘支持向量机(Least Squares Support Vector Machine, LS-SVM)是一种基于SVM的变种方法,具有非线性问题处理能力、计算效率高、可解释性强、泛化性能高等优势,这意味着它可以更好地理解模型对故障的判定依据,提高模型的可解释性,并且可以更好地处理噪声和过拟合问题,提高了模型的泛化性能,从而在实际故障诊断应用中表现良好。因此,本文提出将DGA与LS-SVM相结合来实现设备故障诊断,从而提高电力变压器故障诊断的准确性和效率。
然而,LS-SVM普遍存在稀疏性缺乏的问题,导致在处理小样本的情况时容易出现诊断准确性降低的现象。小样本在大多数现实世界的数据源中是十分常见的,DGA数据集也不例外。近期,Meng等[7]提出了在LS-SVM分类器前先进行局部均值分解(Local Mean Decomposition, LMD)形态滤波降噪,以便解决稀疏性差的问题。然而,该LMD-LS-SVM分类器对信号做相关分析需要数据分布的先验知识,以便产生尽可能精确的能量特征。针对这一难以实现的前提条件,本文提出了一种基于核空间聚类的稀疏化LS-SVM分类器,适用于小样本问题。实验结果表明,在小样本条件下,提出的异常诊断模型的分类精度和效率均有提升,验证了其先进性。
1、异常诊断的原理和特征气体
油浸式变压器的设计是为了高效、安全地传输电能,使用矿物油作为绝缘介质和冷却剂。然而,在不正常的运行条件下或存在内部故障的情况下,油可能会降解,导致各种气体的产生。这些气体可以提供有关故障类型和故障严重程度的有价值的信息。
1.1设备的产气原理
油浸式变压器中气体的产生主要是由故障条件下施加在绝缘材料上的热应力和电应力所导致的,包括油和固体绝缘(如纸、纸板)。热应力可能是由过载、短路或接触不良引起的局部热点造成的。绝缘材料由于局部放电、起弧或击穿,可能会产生电应力。
当这些应力超过绝缘材料的阈值时,会引起各种化学反应和物理反应,导致气体的形成[8]。例如,石油分子的分解可能导致氢(H2)、甲烷(CH4)、乙烷(C2H6)和其他碳氢化合物气体的产生。纤维素绝缘材料的降解会产生一氧化碳(CO)、二氧化碳(CO2)和其他可燃气体,所产生的气体的类型和数量取决于故障的性质、温度、持续时间和绝缘材料的状况。特征气体的类型如表1所列。
表1特征气体的类型
1.2诊断模型所需的DGA特征气体
油浸式变压器发生故障时产生的特征气体是故障诊断的重要指标。对这些气体进行分析可以提供有关故障类型和故障严重程度的有价值的信息。油浸变压器的DGA数据分析是目前最常用的一种方法,该方法通过监测变压器油中特征气体的含量来诊断不同类型的故障。一些常见的故障类型[9]和其在DGA数据中的体现如表2所列。
表2故障类型与DGA特征气体的关系
2、基于DGA和稀疏化LS-SVM的设备异常诊断模型
2.1 DGA数据预处理
油浸式变压器的DGA数据预处理是进行故障诊断和状态评估的一个重要步骤。具体步骤为:
1)数据清洗:
对DGA数据进行清洗,包括去除异常值、缺失值和噪声。异常值可能是由传感器误差、测量噪声或数据记录错误引起的,需要进行识别和处理。缺失值可能是由传感器故障或测量间隔引起的,本文通过删除缺失值的方式进行处理。
2)数据归一化:
为了将GGA数据转换为统一的尺度,以便后续的数据处理和建模,本文采用了常见的标准化方法,如Z-score标准化[10-11],进行归一化处理。其中,x为原始数据,x′为标准化后的数据,μ为原始数据的平均值,σ为原始数据的标准差。
3)数据平衡:
针对油浸式变压器DGA数据中的类别不平衡问题,使用人工少数类过采样法(Synthetic Minority Over-sampling Technique, SMOTE)进行数据平衡处理[12],以保证模型在训练和评估时对不同类别的样本具有相对均衡的处理能力。SMOTE中计算合成样本xnew的方法如下:
xnew=xi+rand(0,1)×(xneighbor-xi) (2)
其中,xi为每个少数类样本,rand(0,1)为一个0~1之间均匀分布的随机数,xneighbor为最近邻居。
4)数据划分:
将预处理后的DGA数据集划分为训练集和测试集,用于模型的训练和评估。本文采用随机抽样的方法,将DGA数据集按照2∶1的比例划分为训练集和测试集。
2.2基于核空间聚类的稀疏化LS-SVM分类器
如上所述,小样本、不平衡样本在现实世界的大多数数据源中是十分常见的,DGA数据集也不例外。但是,由于LS-SVM的稀疏性较差[13-14],因此处理此类样本时容易出现诊断准确性降低的问题。
核空间距离聚类(Kernel Space Distance Clustering, KSDC)是一种数据预处理方法[15],用于将数据样本映射到高维的核空间,从而实现对数据的降维和特征提取。
因此,本文采用KSDC方法对LS-SVM的数据进行预处理,以实现对LS-SVM模型的稀疏化,从而提高模型的效率和泛化性能。此外,本文采用基于图论的谱聚类算法[16],对映射后的数据进行聚类,实现具体步骤如下。
首先,在LS-SVM中,使用的核函数与传统SVM类似,其通过将输入样本映射到高维特征空间来实现非线性建模能力。本文选择多项式核函数来实现核空间距离聚类的数据预处理。
K(x,x′)=(γxTx′+r)d(3)
其中,γ为尺度参数,r是常数项,d是多项式的次数。
使用多项式核函数将输入数据样本映射到高维核空间,具体采用了隐式映射方法和核技巧(Kernel Trick)来避免显式地计算高维空间中的特征向量,从而降低了计算复杂度。隐式映射的计算式如下:
K′(x,y)=ϕ(x)·ϕ(y) (4)
其中,K′(x,y)表示在低维空间中计算得到的核函数值,ϕ(x)和ϕ(y)分别表示输入数据样本x和y在高维核空间中的隐式映射。
使用欧氏距离度量方法在高维核空间中计算样本之间的距离,其在核空间中的计算式如式(5)所示:其中,xi和xj分别为两个样本在输入空间中的特征,ϕ(xi)和ϕ(xj)分别为xi和xj在高维核空间中的表示,ϕ(·)表示核映射函数,|·|表示向量的范数,〈·,·〉表示向量的内积。
在计算时,可以使用核函数K(xi,xj)来替代内积〈ϕ(xi),ϕ(xj)〉,从而避免显式地计算高维核空间中的向量表示,即:这样,我们可以通过在输入空间中计算核函数来得到高维核空间中样本之间的欧氏距离,从而在基于核空间的稀疏化LS-SVM分类器中使用欧氏距离度量方法进行样本聚类。
其次,对映射后的样本在核空间中应用谱聚类。谱聚类通过图分割方法来实现聚类类别划分,其分割子集的数量和聚类类别相等,谱聚类需要求解顶点相似度及分割子集的特征值。
设图G=(V,E)共包含V={v1,v2,…,vn}个顶点,n个顶点形成的边关系集合为E={eij=〈vi,vj〉|vi,vj∈V}。其中顶点vi和vj之间的相似程度为wij,wij≥0,计算式为:其中,σ为常量,d(vi,vj)表示两个顶点之间的距离。
设归一化割集将图G划分为k个类别(A1,A2,…,Ak),计算时k个类别用集合hj={h1j,h2j,…,hnj}表示,hij表示为:其中,i=1,2,…,n,j=1,2,…,k,将类别集合构建成子集合H={h1,h2,…,hk}。
对于k个类别,令i=1,2,…,k,可以将归一化割集优化为Ls的k个特征值所对应的特征,从而获得对应Lr的特征。谱聚类算法将样本划分到不同的类别中,形成聚类结果。
最后,根据聚类结果,筛选出每个类别的代表性样本,例如选择每个类别的聚类中心作为代表性样本。使用筛选出的代表性样本作为训练集,训练LS-SVM模型。由于经过核空间距离聚类的预处理,所需训练集中的样本数量较少,从而实现了对LS-SVM分类器的稀疏化。
举例来说,假设N为训练样本数据集合,则对于训练集中A类样本M1和B类样本M2来说,需要各自运用谱聚类算法计算样本簇中心作为代表性样本。其中,d1为M1中各类到M2的核距离,d2为M2中各类到M1的核距离。
将筛选出的代表性样本记作新训练集N′,使用N′进行建模,从而获得基于核空间聚类的稀疏化LS-SVM分类器。核空间聚类的稀疏化原理如图1所示。
图1核空间聚类的稀疏化原理
基于核空间聚类的稀疏化LS-SVM的流程如图2所示。
图2所提稀疏化LS-SVM的流程
2.3设备异常诊断的流程
基于DGA和稀疏化LS-SVM的设备异常诊断流程如下:
步骤1对DGA数据进行编号分类和预处理,包括数据清洗、数据归一化、数据平衡和数据划分,训练集和测试集的比例为为2∶1;
步骤2从DGA数据中提取每种气体的浓度值作为特征,并使用最大值、最小值和平均值统计指标来描述气体浓度的分布情况;
步骤3使用所提稀疏化LS-SVM分类器对训练集中的数据进行模型训练,通过最小化目标函数来求解分类器的参数;
步骤4通过交叉验证方法来寻找最优的稀疏化LS-SVM分类器参数组合,如尺度参数γ和多项式的次数d,以提高分类器的性能;
步骤5使用测试集对训练好的稀疏化LS-SVM模型进行评估。
3、实验结果与分析
3.1数据集与实验配置
实验所用的DGA数据来自国家电网公司所属市级变电站,类型为三相油浸式变压器,型号为S9-M-800/10,共存在9种故障类型。运行环境参数:温度28℃,湿度60%,海拔高度32 m,空气中硫化氢含2.3 mg/m3。S9-M-800/10的额定容量800 kVA,额定电压10 kV,空载损耗2.4 kW,短路阻抗电压4.5%。训练集和测试集的比例为2∶1,共计270组数据。通常将单类样本数量不超过30的情况称为小样本,而该数据集符合此要求。DGA数据集的配置如表3所列。
实验环境软硬件参数为:Intel Core i7970 Processor 12 M Cache 3.20 GHz CPU,8 GB内存,固态硬盘传输速率200 MB/s。软件环境为Window10 64位,MATLAB r2017a。
表3 DGA数据集的配置
交叉验证使用的Matlab函数为crossval。稀疏化LS-SVM分类器中尺度参数γ和多项式的次数d的寻优示意图如图3所示。
图3 LS-SVM分类器参数的寻优示意图
可以看出,尺度参数γ和多项式的次数d的最佳取值分别为0.840 9和3(1.584 96),后续实验中LS-SVM分类器参数均采用这个最佳配置。
3.2诊断性能分析
首先,使用基于核空间聚类的稀疏化LS-SVM分类器对预处理后的DGA数据进行故障诊断。在90个样本的测试集中,验证了稀疏化LS-SVM分类器的性能,结果如图4所示。
图4所提模型的故障诊断结果
可以看出,所提稀疏化LS-SVM分类器在90个样本的分类判断中仅出现了3次错误,分别为样本7、样本41和样本72,也就是说,稀疏化LS-SVM分类器的诊断准确率为96.67%。
3.3性能对比
为了充分验证所提模型的故障诊断能力,将SOA-SVM和LMD-LS-SVM作为对照组,使用9组共180个样本对3个诊断模型进行训练,利用混淆矩阵来显示3个诊断模型的诊断结果,如图5所示。
图5 3个模型的诊断结果
可以看出,相比SOA-SVM和LMD-LS-SVM,稀疏化LS-SVM分类器的大部分结果均集中分布在混淆矩阵的对角线上,说明诊断的准确率更高。以绕组过热为例,SOA-SVM分类器仅正确诊断了13例,LMD-LS-SVM分类器正确诊断了21例,而稀疏化LS-SVM分类器正确诊断了27例,明显高于另外2个分类器,说明SOA-SVM分类器在绕组过热类型故障诊断中的适用性较差。综合对比诊断结果可以看出,稀疏化LS-SVM分类器适用于所有9种故障类型,而SOA-SVM分类器和LMD-LS-SVM分类器则对绕组过热类型存在适用性较差的问题。3个模型的诊断正确率对比结果如表4所列。
表4 3个模型的诊断正确率对比
对于局部放电、绝缘老化、电晕放电、潮湿/水侵入、调压器故障和油质劣化这6种故障类型,稀疏化LS-SVM的判断正确率均达到100%,其他故障类型也达到了90%,平均正确率为96.67%。SOA-SVM和LMD-LS-SVM的平均正确率分别为82.22%和91.11%,明显低于稀疏化LS-SVM。
此外,相比其他两个模型,稀疏化LS-SVM的适应度曲线收敛速度更快,仅需11次迭代就可以获得最大的适应度值96.67,3个模型的适应度曲线收敛结果对比如表5所列。
表5适应度曲线收敛结果对比
综上所述,对于9种类型的DGA数据,相比SOA-SVM和LMD-LS-SVM,稀疏化LS-SVM分类器的诊断准确率更高,诊断时间更短,验证了其先进性。
4、结束语
本文提出了一种基于DGA和稀疏化LS-SVM的设备故障诊断模型。对DGA数据进行编号分类和预处理,且训练集和测试集的比例为2∶1。得出如下结论:
1)通过交叉验证方法获得最优的稀疏化LS-SVM分类器的参数组合取值(尺度参数和多项式的次数)分别为0.840 9和3(1.584 96);
2)稀疏化LS-SVM分类器适用于所有9种故障类型,而SOA-SVM分类器和LMD-LS-SVM分类器则对绕组过热类型存在适用性较差的问题;
3)相比SOA-SVM和LMD-LS-SVM,稀疏化LS-SVM分类器能够在小样本数据集上获得较好的准确率和执行效率,准确率达到96.67%。
后续将对所提模型在非平衡样本集中的性能或者样本泛化性开展进一步研究。
基金资助:国家自然科学基金面上项目(61871204);福建省科技厅引导性项目(2018H0028);广西电网公司2023年科技项目(046000KK52222021)~~;
文章来源:潘连荣,张福泉,何井龙,等.基于DGA和稀疏化支持向量机的设备异常诊断[J].计算机科学,2024,51(11):292-297.
分享:
随着医疗事业的飞速发展,多学科集合的手术室已成为医院的重点部门。由于手术室内贵重、精密仪器的种类及数量繁多,存在管理难、质量控制难和维修难三大难题。如何管理种类繁多、数量浩大的医疗设备,成为手术室管理者面临的严峻课题。传统的手术室仪器设备管理是由医护人员手动管理,均为人为操作,存在耗费人工成本、易出现疏漏的弊端。
2025-08-15在设备维护管理过程中,很可能存在安全隐患,需采取合适的措施,保证使用过程的安全[3-4]。在维护管理过程中,若管理不规范,可能导致设备丢失或损坏;若维护不到位,设备性能可能下降或频繁出现故障[5-6]。
2025-08-13医疗技术日新月异,各类医疗设备为临床工作提供了坚实保障。然而在实际应用中,环境因素、设备老化等都可能导致设备性能下滑甚至出现故障,这对医疗质量与患者安全构成威胁。因此,开展医疗设备状态自动检测研究极为关键,其目标在于实时监测设备运行、深入分析数据并及时预警故障,从而提升设备使用效率与安全性。
2025-07-09医疗设备管理作为医院运营管理的重要一环,其内部控制管理水平将直接影响医院资源的优化配置及运行效率[1]。内部控制评价是判断医院内部控制是否有效的主要方式,通过实施有效的内部控制评价,医疗设备管理中存在的内部控制风险将进一步清晰化。
2025-06-24传统的超声设备管理模式,如手工记录、定期巡检等,已经难以满足现代医院高效、精准、智能化的管理需求。同时,超声设备作为医院重点医疗设备,其运营表现直接关系到临床诊断的效能和效果。该设备具有使用频次高、技术复杂、购置成本高等特征,导致设备运维管理难度及工作量较大[2-3]。
2025-05-20随着大数据时代的来临,手术室管理逐渐摒弃了传统的卡片式人工管理模式,开始引入信息技术及网络电子信息系统,如二维码识别技术。二维码识别技术主要是通过二维码生成软件,将获得的信息传送至二维码生成器,生成相应的二维码,然后进行存储和运用[3]。
2025-04-15医院是为人民群众提供医疗服务的主要场所。由于其服务的专业性、受众的广泛性以及生命安全的特殊性,医院是国际上公认的较为复杂、管理难度较大的组织体系之一。随着医学技术的快速发展,医疗设备为医务工作者开展医疗新技术、新项目提供强有力的支持,在诊断、诊疗上发挥着重要的作用,已成为医院医务工作者不可或缺的临床诊断与治疗手段。
2025-03-24消毒供应室作为医院可重复使用医疗器械处理的供应部门,其应该对器械予以清洗、消毒、包装、灭菌等处理,手术器械处理质量对医院感染发生率产生极大影响,因此,手术器械的管理质量,有助于控制医院感染发生率 。手术器械一般都属于可重复使用的器械,器械在使用过程中需要与患者进行接触。
2025-02-05消毒供应室(CSSD)是为临床提供安全的医疗器械和耗材的重要科室,器械和耗材的清洗、消毒、打包质量将决定院感事件发生率,因此内部工作人员拥有良好的院感防控知识、优质后勤保障的服务态度以及相关清洗、消毒、打包的无菌技术显得尤为重要。“知信行”模型即认知—信念—行动模型,该理论提出了知识、信念和行为之间的递进关系。
2025-01-17临床医疗工作中,医用影像设备占据重要地位,包括核磁共振、X线胸片、超声、CT等多种类 型[1]。CT设备在临床工作中发挥关键性作用,可以及时诊断疾病类型、病情发展、评价临床疗效, 具有操作便捷、分辨率高等优势,医疗费用低廉,大部分患者对 CT检查技术认可[2]。
2024-12-26人气:5204
人气:5125
人气:4385
人气:3649
人气:3384
我要评论
期刊名称:计算机科学
期刊人气:2227
主管单位:重庆西南信息有限公司
主办单位:重庆西南信息有限公司
出版地方:重庆
专业分类:计算机
国际刊号:1002-137X
国内刊号:50-1075/TP
邮发代号:78-68
创刊时间:1974年
发行周期:月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.000
影响因子:0.599
影响因子:0.335
影响因子:0.419
影响因子:0.422
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!