首页 > 论文范文 > 医药卫生论文 > 医院管理论文 > 医疗设备管理论文 > 基于DGA和稀疏化支持向量机的设备异常诊断

基于DGA和稀疏化支持向量机的设备异常诊断

2024-11-11 80 上传者：管理员

摘要：为了有效提高基于机器学习的设备异常诊断的精度和效率，提出了一种基于稀疏化支持向量机的故障诊断模型。首先，对异常诊断的原理和特征气体进行了分析，给出了故障类型与特征气体的关系；其次，从4个方面对数据进行预处理，包括清洗、归一化、平衡和划分；然后，针对最小二乘支持向量机普遍存在的稀疏性缺乏问题，提出将数据样本映射到高维的核空间，并通过谱聚类算法对映射后的数据进行核空间距离聚类，以实现最小二乘支持向量机的数据预处理，从而实现其稀疏化；最后，在小样本数据集上进行了具体实验分析。结果表明，对于9种类型的故障，与其他基于不同类型支持向量机的诊断模型相比，所提诊断模型仅需11次迭代就可以获得最大适应度值，平均诊断准确率为96.67%,准确率和效率均更高。

关键词：
异常诊断
最小二乘支持向量机
机器学习
油中溶解气体分析
稀疏化
加入收藏

目前，随着智能化技术的提高，基于机器学习的设备故障诊断方法受到了广泛关注[1-2]。其中，油中溶解气体分析(Dissolved Gas-in-oil Analysis, DGA)作为一种常用的电力变压器故障诊断技术，通过分析变压器油中溶解的气体的含量和组成，可以提供有关设备运行状态和潜在故障的信息[3-4]。另一方面，支持向量机(Support Vector Machine, SVM)作为一种机器学习方法，在处理高维数据和大规模数据时具有较好的性能。因此，许多研究人员将DGA与SVM相结合来实现设备故障诊断。

例如，Sahri等[5]提出了一种结合DGA和SVM的电力变压器故障诊断方法。首先从DGA数据中提取特征，包括气体浓度和不同气体的比例；然后，使用SVM作为分类器，根据提取的特征对故障类型进行分类。结果表明，该方法在识别各种类型的变压器故障(如过热、局部放电和绝缘劣化)方面具有较高的准确性。Feng等[6]则采用主成分分析法(Principal Component Analysis, PCA)提取DGA数据变量的特征，并用海鸥优化算法(Seagull Optimization Algorithm, SOA)来提高SVM分类器的准确度，结果表明该SOA-SVM分类器在识别不同故障类型时具有较高的准确率。上述文献均表明了DGA与SVM相结合的方法的有效性。

最小二乘支持向量机(Least Squares Support Vector Machine, LS-SVM)是一种基于SVM的变种方法，具有非线性问题处理能力、计算效率高、可解释性强、泛化性能高等优势，这意味着它可以更好地理解模型对故障的判定依据，提高模型的可解释性，并且可以更好地处理噪声和过拟合问题，提高了模型的泛化性能，从而在实际故障诊断应用中表现良好。因此，本文提出将DGA与LS-SVM相结合来实现设备故障诊断，从而提高电力变压器故障诊断的准确性和效率。

然而，LS-SVM普遍存在稀疏性缺乏的问题，导致在处理小样本的情况时容易出现诊断准确性降低的现象。小样本在大多数现实世界的数据源中是十分常见的，DGA数据集也不例外。近期，Meng等[7]提出了在LS-SVM分类器前先进行局部均值分解(Local Mean Decomposition, LMD)形态滤波降噪，以便解决稀疏性差的问题。然而，该LMD-LS-SVM分类器对信号做相关分析需要数据分布的先验知识，以便产生尽可能精确的能量特征。针对这一难以实现的前提条件，本文提出了一种基于核空间聚类的稀疏化LS-SVM分类器，适用于小样本问题。实验结果表明，在小样本条件下，提出的异常诊断模型的分类精度和效率均有提升，验证了其先进性。

1、异常诊断的原理和特征气体

油浸式变压器的设计是为了高效、安全地传输电能，使用矿物油作为绝缘介质和冷却剂。然而，在不正常的运行条件下或存在内部故障的情况下，油可能会降解，导致各种气体的产生。这些气体可以提供有关故障类型和故障严重程度的有价值的信息。

1.1设备的产气原理

油浸式变压器中气体的产生主要是由故障条件下施加在绝缘材料上的热应力和电应力所导致的，包括油和固体绝缘(如纸、纸板)。热应力可能是由过载、短路或接触不良引起的局部热点造成的。绝缘材料由于局部放电、起弧或击穿，可能会产生电应力。

当这些应力超过绝缘材料的阈值时，会引起各种化学反应和物理反应，导致气体的形成[8]。例如，石油分子的分解可能导致氢(H2)、甲烷(CH4)、乙烷(C2H6)和其他碳氢化合物气体的产生。纤维素绝缘材料的降解会产生一氧化碳(CO)、二氧化碳(CO2)和其他可燃气体，所产生的气体的类型和数量取决于故障的性质、温度、持续时间和绝缘材料的状况。特征气体的类型如表1所列。

表1特征气体的类型

1.2诊断模型所需的DGA特征气体

油浸式变压器发生故障时产生的特征气体是故障诊断的重要指标。对这些气体进行分析可以提供有关故障类型和故障严重程度的有价值的信息。油浸变压器的DGA数据分析是目前最常用的一种方法，该方法通过监测变压器油中特征气体的含量来诊断不同类型的故障。一些常见的故障类型[9]和其在DGA数据中的体现如表2所列。

表2故障类型与DGA特征气体的关系

2、基于DGA和稀疏化LS-SVM的设备异常诊断模型

2.1 DGA数据预处理

油浸式变压器的DGA数据预处理是进行故障诊断和状态评估的一个重要步骤。具体步骤为：

1)数据清洗：

对DGA数据进行清洗，包括去除异常值、缺失值和噪声。异常值可能是由传感器误差、测量噪声或数据记录错误引起的，需要进行识别和处理。缺失值可能是由传感器故障或测量间隔引起的，本文通过删除缺失值的方式进行处理。

2)数据归一化：

为了将GGA数据转换为统一的尺度，以便后续的数据处理和建模，本文采用了常见的标准化方法，如Z-score标准化[10-11],进行归一化处理。其中，x为原始数据，x′为标准化后的数据，μ为原始数据的平均值，σ为原始数据的标准差。

3)数据平衡：

针对油浸式变压器DGA数据中的类别不平衡问题，使用人工少数类过采样法(Synthetic Minority Over-sampling Technique, SMOTE)进行数据平衡处理[12],以保证模型在训练和评估时对不同类别的样本具有相对均衡的处理能力。SMOTE中计算合成样本xnew的方法如下：

xnew=xi+rand(0,1)×(xneighbor-xi) (2)

其中，xi为每个少数类样本，rand(0,1)为一个0～1之间均匀分布的随机数，xneighbor为最近邻居。

4)数据划分：

将预处理后的DGA数据集划分为训练集和测试集，用于模型的训练和评估。本文采用随机抽样的方法，将DGA数据集按照2∶1的比例划分为训练集和测试集。

2.2基于核空间聚类的稀疏化LS-SVM分类器

如上所述，小样本、不平衡样本在现实世界的大多数数据源中是十分常见的，DGA数据集也不例外。但是，由于LS-SVM的稀疏性较差[13-14],因此处理此类样本时容易出现诊断准确性降低的问题。

核空间距离聚类(Kernel Space Distance Clustering, KSDC)是一种数据预处理方法[15],用于将数据样本映射到高维的核空间，从而实现对数据的降维和特征提取。

因此，本文采用KSDC方法对LS-SVM的数据进行预处理，以实现对LS-SVM模型的稀疏化，从而提高模型的效率和泛化性能。此外，本文采用基于图论的谱聚类算法[16],对映射后的数据进行聚类，实现具体步骤如下。

首先，在LS-SVM中，使用的核函数与传统SVM类似，其通过将输入样本映射到高维特征空间来实现非线性建模能力。本文选择多项式核函数来实现核空间距离聚类的数据预处理。

K(x,x′)=(γxTx′+r)d(3)

其中，γ为尺度参数，r是常数项，d是多项式的次数。

使用多项式核函数将输入数据样本映射到高维核空间，具体采用了隐式映射方法和核技巧(Kernel Trick)来避免显式地计算高维空间中的特征向量，从而降低了计算复杂度。隐式映射的计算式如下：

K′(x,y)=ϕ(x)·ϕ(y) (4)

其中，K′(x,y)表示在低维空间中计算得到的核函数值，ϕ(x)和ϕ(y)分别表示输入数据样本x和y在高维核空间中的隐式映射。

使用欧氏距离度量方法在高维核空间中计算样本之间的距离，其在核空间中的计算式如式(5)所示：其中，xi和xj分别为两个样本在输入空间中的特征，ϕ(xi)和ϕ(xj)分别为xi和xj在高维核空间中的表示，ϕ(·)表示核映射函数，|·|表示向量的范数，〈·,·〉表示向量的内积。

在计算时，可以使用核函数K(xi,xj)来替代内积〈ϕ(xi),ϕ(xj)〉,从而避免显式地计算高维核空间中的向量表示，即：这样，我们可以通过在输入空间中计算核函数来得到高维核空间中样本之间的欧氏距离，从而在基于核空间的稀疏化LS-SVM分类器中使用欧氏距离度量方法进行样本聚类。

其次，对映射后的样本在核空间中应用谱聚类。谱聚类通过图分割方法来实现聚类类别划分，其分割子集的数量和聚类类别相等，谱聚类需要求解顶点相似度及分割子集的特征值。

设图G=(V,E)共包含V={v1,v2,…,vn}个顶点，n个顶点形成的边关系集合为E={eij=〈vi,vj〉|vi,vj∈V}。其中顶点vi和vj之间的相似程度为wij,wij≥0,计算式为：其中，σ为常量，d(vi,vj)表示两个顶点之间的距离。

设归一化割集将图G划分为k个类别(A1,A2,…,Ak),计算时k个类别用集合hj={h1j,h2j,…,hnj}表示，hij表示为：其中，i=1,2,…,n,j=1,2,…,k,将类别集合构建成子集合H={h1,h2,…,hk}。

对于k个类别，令i=1,2,…,k,可以将归一化割集优化为Ls的k个特征值所对应的特征，从而获得对应Lr的特征。谱聚类算法将样本划分到不同的类别中，形成聚类结果。

最后，根据聚类结果，筛选出每个类别的代表性样本，例如选择每个类别的聚类中心作为代表性样本。使用筛选出的代表性样本作为训练集，训练LS-SVM模型。由于经过核空间距离聚类的预处理，所需训练集中的样本数量较少，从而实现了对LS-SVM分类器的稀疏化。

举例来说，假设N为训练样本数据集合，则对于训练集中A类样本M1和B类样本M2来说，需要各自运用谱聚类算法计算样本簇中心作为代表性样本。其中，d1为M1中各类到M2的核距离，d2为M2中各类到M1的核距离。

将筛选出的代表性样本记作新训练集N′,使用N′进行建模，从而获得基于核空间聚类的稀疏化LS-SVM分类器。核空间聚类的稀疏化原理如图1所示。

图1核空间聚类的稀疏化原理

基于核空间聚类的稀疏化LS-SVM的流程如图2所示。

图2所提稀疏化LS-SVM的流程

2.3设备异常诊断的流程

基于DGA和稀疏化LS-SVM的设备异常诊断流程如下：

步骤1对DGA数据进行编号分类和预处理，包括数据清洗、数据归一化、数据平衡和数据划分，训练集和测试集的比例为为2∶1;

步骤2从DGA数据中提取每种气体的浓度值作为特征，并使用最大值、最小值和平均值统计指标来描述气体浓度的分布情况；

步骤3使用所提稀疏化LS-SVM分类器对训练集中的数据进行模型训练，通过最小化目标函数来求解分类器的参数；

步骤4通过交叉验证方法来寻找最优的稀疏化LS-SVM分类器参数组合，如尺度参数γ和多项式的次数d,以提高分类器的性能；

步骤5使用测试集对训练好的稀疏化LS-SVM模型进行评估。

3、实验结果与分析

3.1数据集与实验配置

实验所用的DGA数据来自国家电网公司所属市级变电站，类型为三相油浸式变压器，型号为S9-M-800/10,共存在9种故障类型。运行环境参数：温度28℃,湿度60%,海拔高度32 m,空气中硫化氢含2.3 mg/m3。S9-M-800/10的额定容量800 kVA,额定电压10 kV,空载损耗2.4 kW,短路阻抗电压4.5%。训练集和测试集的比例为2∶1,共计270组数据。通常将单类样本数量不超过30的情况称为小样本，而该数据集符合此要求。DGA数据集的配置如表3所列。

实验环境软硬件参数为：Intel Core i7970 Processor 12 M Cache 3.20 GHz CPU,8 GB内存，固态硬盘传输速率200 MB/s。软件环境为Window10 64位，MATLAB r2017a。

表3 DGA数据集的配置

交叉验证使用的Matlab函数为crossval。稀疏化LS-SVM分类器中尺度参数γ和多项式的次数d的寻优示意图如图3所示。

图3 LS-SVM分类器参数的寻优示意图

可以看出，尺度参数γ和多项式的次数d的最佳取值分别为0.840 9和3(1.584 96),后续实验中LS-SVM分类器参数均采用这个最佳配置。

3.2诊断性能分析

首先，使用基于核空间聚类的稀疏化LS-SVM分类器对预处理后的DGA数据进行故障诊断。在90个样本的测试集中，验证了稀疏化LS-SVM分类器的性能，结果如图4所示。

图4所提模型的故障诊断结果

可以看出，所提稀疏化LS-SVM分类器在90个样本的分类判断中仅出现了3次错误，分别为样本7、样本41和样本72,也就是说，稀疏化LS-SVM分类器的诊断准确率为96.67%。

3.3性能对比

为了充分验证所提模型的故障诊断能力，将SOA-SVM和LMD-LS-SVM作为对照组，使用9组共180个样本对3个诊断模型进行训练，利用混淆矩阵来显示3个诊断模型的诊断结果，如图5所示。

图5 3个模型的诊断结果

可以看出，相比SOA-SVM和LMD-LS-SVM,稀疏化LS-SVM分类器的大部分结果均集中分布在混淆矩阵的对角线上，说明诊断的准确率更高。以绕组过热为例，SOA-SVM分类器仅正确诊断了13例，LMD-LS-SVM分类器正确诊断了21例，而稀疏化LS-SVM分类器正确诊断了27例，明显高于另外2个分类器，说明SOA-SVM分类器在绕组过热类型故障诊断中的适用性较差。综合对比诊断结果可以看出，稀疏化LS-SVM分类器适用于所有9种故障类型，而SOA-SVM分类器和LMD-LS-SVM分类器则对绕组过热类型存在适用性较差的问题。3个模型的诊断正确率对比结果如表4所列。

表4 3个模型的诊断正确率对比

对于局部放电、绝缘老化、电晕放电、潮湿/水侵入、调压器故障和油质劣化这6种故障类型，稀疏化LS-SVM的判断正确率均达到100%,其他故障类型也达到了90%,平均正确率为96.67%。SOA-SVM和LMD-LS-SVM的平均正确率分别为82.22%和91.11%,明显低于稀疏化LS-SVM。

此外，相比其他两个模型，稀疏化LS-SVM的适应度曲线收敛速度更快，仅需11次迭代就可以获得最大的适应度值96.67,3个模型的适应度曲线收敛结果对比如表5所列。

表5适应度曲线收敛结果对比

综上所述，对于9种类型的DGA数据，相比SOA-SVM和LMD-LS-SVM,稀疏化LS-SVM分类器的诊断准确率更高，诊断时间更短，验证了其先进性。

4、结束语

本文提出了一种基于DGA和稀疏化LS-SVM的设备故障诊断模型。对DGA数据进行编号分类和预处理，且训练集和测试集的比例为2∶1。得出如下结论：

1)通过交叉验证方法获得最优的稀疏化LS-SVM分类器的参数组合取值(尺度参数和多项式的次数)分别为0.840 9和3(1.584 96);

2)稀疏化LS-SVM分类器适用于所有9种故障类型，而SOA-SVM分类器和LMD-LS-SVM分类器则对绕组过热类型存在适用性较差的问题；

3)相比SOA-SVM和LMD-LS-SVM,稀疏化LS-SVM分类器能够在小样本数据集上获得较好的准确率和执行效率，准确率达到96.67%。

后续将对所提模型在非平衡样本集中的性能或者样本泛化性开展进一步研究。

基金资助:国家自然科学基金面上项目(61871204);福建省科技厅引导性项目(2018H0028);广西电网公司2023年科技项目(046000KK52222021)~~;