91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

自注意力优化密度聚类的风机数据清洗方法

  2025-05-06    51  上传者:管理员

摘要:针对风电机组监控与数据采集系统常受多种因素影响,导致数据异常问题,提出一种基于自注意力编码器改进的密度聚类模型方法,结合自注意力编码器的特征提取能力和密度聚类的空间特性,通过引入相对位置编码和优化多头注意力机制,提升对监控与数据采集系统异常数据识别能力。实验结果表明,所提方法的数据清洗效果和模型精度与传统方法相比更优,其中异常数据剔除率达到26.58%,并且在拟合风速-功率曲线时,平均绝对误差、均方根误差最低,决定系数最高。清洗后的监控与数据采集系统数据应用于机组故障诊断,将风电机组故障识别准确性提高到了92%以上、故障预警及时性提前了20%,故障类型分类精度提高了30%。该方法不仅提高了风电机组的运行效率和可靠性,还为风电场的运行管理和决策提供了较为可靠的数据支持。

  • 关键词:
  • 密度聚类算法
  • 数据清洗
  • 监控与数据采集系统
  • 自注意力编码器
  • 风电机组
  • 加入收藏

随着风力发电在全球能源结构中的比重不断增加,风电机组的运行效率和可靠性成为影响风电场经济效益的关键因素之一[1]。风电机组的监控与数据采集(SCADA)系统作为实时监测和控制风电机组运行状态的重要工具,其数据的准确性和完整性对于风电场的运行管理至关重要[2]。然而,在实际运行过程中,SCADA系统可能会受到各种因素的影响,导致数据异常,进而影响风电机组状态判断的准确性和故障预警的及时性[3]。因此,如何有效地监测和识别SCADA系统中的异常数据,对于提高风电机组的运行效率和可靠性具有重要意义[4]。

近年来,许多学者对风电机组SCADA系统中异常数据的监测、识别和清洗进行了研究。文献[5]通过分析异常数据的特征,采用滑差-四分位法对多个风场的数据进行异常筛选,并进行功率曲线建模。为了验证该方法的适用性和有效性,研究人员引入了方差、均方根误差和决定系数等指标进行评估。文献[6]为解决风电机组原始SCADA数据中存在的异常记录问题,提出了一种新的数据识别方法,该方法基于密度聚类算法(DBSCAN),能够更好地处理数据中的噪声,并识别出风机的实际运行状态。这种方法解决了数据中的异常点,提升了识别的准确性。文献[7]针对风电机组风速-功率曲线拟合中异常数据与正常数据难以精确区分的问题,以及现有方法在识别准确度低、分析过程复杂、异常数据清洗效率差、处理时间较长等方面的不足,提出了一种创新的异常数据识别模型,该模型将卷积神经网络与双向长短时记忆网络相结合,提高了数据处理的准确性和效率。实测结果表明,该方法能够在不同风电场条件下有效地检测和清洗异常数据。


1、建模思路和方法


本文在前人研究的基础上,使用Transformer自编码器结构的改进DBSCAN聚类模型来对SCADA中的异常数据进行监测与识别,并进行清洗。该方法结合了深度学习和传统聚类算法的优势,凭借Transformer强大的特征提取能力,为DBSCAN算法提供更加有效的输入特征,提高了聚类精度,尤其是在处理高维、复杂分布数据时表现尤为突出。结合自适应密度估计、参数选择优化和噪声点处理等技术,进一步改善DBSCAN聚类模型在异常数据清洗中的效率。


2、相关原理


2.1Transformer结构

Transformer自编码器结合了Transformer网络的强大能力和自编码器结构的特性,用于无监督学习中的特征与数据压缩。自编码器本质上是一个神经网络架构,通过对输入数据进行编码和解码,学习得到数据的低维表示(潜在空间),从而完成数据的压缩、去噪、生成等任务。Transformer自编码器是一种深度学习架构,利用自注意力机制在序列数据处理上表现出色,已被广泛应用于多个领域[8]。将二者结合,有助于在处理高维数据时,捕捉到更复杂的依赖关系和模式。

Transformer模型的基本结构分为2个主要部分:

1)编码器:将输入数据从高维映射到低维空间(潜在空间),即压缩数据。编码器学习得到输入数据的潜在表示。

(2)解码器:将编码器得到的低维表示映射回高维空间,重建输入数据。

解码器的目标是尽可能地恢复原始数据。自编码器的训练目标是使重建误差最小化,通常使用均方误差(MSE)作为损失函数。Transformer编码器结构如图1所示。

图1Transformer编码器结构

Transformer自编码器相比于传统的自编码器,主要有以下5个优势:

(1)捕捉长距离依赖关系:自注意力机制在处理文本、时间序列等序列数据时,能够有效捕捉输入数据中的长距离依赖关系。

(2)并行计算能力:Transformer不依赖于时间序列的顺序,这使其在训练时非常高效,可以并行处理所有输入数据。

(3)多头注意力:Transformer的多头注意力机制使其能够关注数据中的不同子空间,捕捉更丰富的模式和结构,提升模型的表达能力。

(4)适应高维数据:自编码器结构能够有效地对高维数据进行降维,Transformer自编码器通过其强大的特征建模能力,对复杂的高维数据进行有效压缩和重建。

(5)处理不规则数据:Transformer自编码器不仅适用于规则的序列数据处理,还扩展到图像、音频等不规则数据的处理领域。

2.2DBSCAN算法

基于密度的空间聚类与噪声检测算法(DBSCAN)是一种聚类方法,该方法特别擅长识别任意形状的群集,并能高效处理噪声数据,广泛被应用于数据挖掘和分析领域[9]。它的核心思想是基于数据点的密度来进行聚类,而不依赖于传统的基于距离的聚类方法如K均值。DBSCAN算法处理后的聚类样本点分为核心点(corepoints)、边界点(borderpoints)和噪声点(noise),这3类样本点的定义如下:

(1)核心点:在某一数据集D中,如果一个样本p的ε邻域内包含至少MinPts个样本包括该样本p本身,则该样本被称为核心点。即Nε(p)大于等于MinPts,称p为核心点。以给定对象P为圆心,半径为r的圆形区域称为P的邻域,其定义如下式所示:

式中:p和q都为G内的数据,数据集G中对象p的ε邻域表示为Nε(p);dist(p,q)为数据点p和q之间的距离。

(2)边界点:对于一个非核心点样本b,若b位于某个核心点p的ε邻域内,则样本b被称为边界点。

(3)噪声点:对于非核心点的样本n,若n不在任意核心点p的ε领域内,则样本n被称为噪声点。

3种数据点类型[10]如图2所示

图23种数据点类型

DBSCAN算法的步骤如下:

(1)对每个样本,计算其在ε邻域内的样本数量,如果数量大于等于最小点数(MinPts),则该样本被视为核心点;

(2)对于每个核心点,找出与其直接相连、密度直达或通过其他核心点间接相连、密度可达的所有样本,其中相连的样本也应是核心点,忽略非核心点;

(3)若某个非核心点位于某个核心点的ε邻域内,则该非核心点被标记为边界点,否则被标记为噪声点。

DBSCAN首先通过核心点识别聚类的核心区域,再通过核心点连接其他样本,最终根据样本的归属关系,判断区分核心点、边界点和噪声点。


3、实例验证


风速-功率特性曲线通过直观地展示风速与发电机功率的关系,该曲线成为评估风电机组发电效率的重要参考曲线。因此,它也是判断风电机组SCADA数据异常的核心标准。为验证本文所提出的基于Transformer改进DBSCAN的SCADA异常数据监测与识别方法的有效性,选取内蒙某风电场12号风电机组在2023年7月1日至2024年7月31日内的10min风速-功率曲线原始数据,如图3所示。

图3内蒙某风场12号机组风速-功率曲线

由图3可知,风速-功率曲线原始数据中存在大量异常数据,这些异常数据点会影响数据分析的准确性,需要对该数据进一步识别和清洗。

3.1效果验证

数据清洗流程如图4所示。

图4数据清洗流程

在数据清洗过程中,首先输入需要清洗的原始SCADA数据,然后对原始数据进行预处理,包括处理缺失值、异常值以及进行标准化等操作,以提高数据质量[11]。接着,使用改进后的Transformer自编码器对预处理后的数据进行训练,通过引入相对位置编码和优化多头注意力机制,学习数据的有效表示。自编码器输出编码后的数据,这些数据随后被用于异常值检测。应用DBSCAN算法对编码后的数据进行聚类分析,基于密度的特性,DBSCAN算法能够识别出数据中的核心点、边界点和噪声点,其中噪声点被视为异常值。最后,针对检测到的异常值采取删除或替换等处理,输出经过清洗的数据,如图5所示,这些数据已经去除了异常值,可以用于后续的分析或建模,为后续决策提供更可靠的数据支持。

图5数据清洗后的12号机组风速-功率曲线

3.2效果对比

通过比较现存的两种常见的风电机组异常数据清洗方法,即k-dist图法和四分位法,来验证本文所提方法的可靠性。k-dist图法是一种基于距离的异常检测方法,它通过计算数据点与k近邻的平均距离来识别异常值。k-dist图法的核心在于确定合适的k值,通常需要根据数据集的特性和分布进行选择。四分位法则是一种基于统计的方法,它利用数据的四分位数来识别异常值。在这种方法中,通常将位于第一位置四分位数Q1和第三位置四分位数Q3之外的数据点视为异常。这种方法简单易行,但对数据分布的偏态不够敏感。本文还将与基于概率模型的Thompsontau识别清洗方法进行比较,它是通过评估数据点与模型的拟合程度来识别异常值[12]。各方法使用相同原始数据,清洗效果如表1所示。

表1各方法数据清洗效果

由表1中可知,本文提出的方法在剔除异常数据方面效果较好。由于风电机组的风速-功率散点图呈带状分布,各散点与拟合曲线之间存在一定的偏差。为了评估不同方法对拟合曲线的能力,本文采用了平均绝对误差(MAE)、均方根误差(RMSE)和R平方值来衡量模型的精度[13]。

式中:pi为第i个点的实际功率值;Pi)代表第i个点的估计功率值;N为样本点总数。

各方法的误差计算结果如表2所示。

表2误差计算结

由表2可知,Transformer-DBSCAN方法的MAE、RMSE较低、R2较高,表明其在这些评价指标下的表现较好。

3.3方法应用

使用清洗后的SCADA数据和早期开发的机器学习模型进行了风电机组故障诊断试验。模型通过分析清洗前后的风速、功率、温度、振动等关键数据参数,对风电机组的运行状态及故障进行预测和诊断。实验结果如下:

(1)故障识别准确性:在异常数据的干扰下,使用原始数据的故障诊断方法,故障识别准确率仅为85%左右;使用清洗后数据故障诊断方法,故障识别准确率提高到了92%以上,该方法能够更准确地识别出风力发电机的各种故障状态,如齿轮箱故障、发电机故障和主轴故障等。

(2)故障预警及时性:清洗后的数据故障诊断方法使故障预警诊断时间提早了约20%。这有利于运维人员在实际运行中更早地发现潜在故障,为维护修复争取更多的时间,缩短停机时长,从而提升风电场的运行效率。

(3)故障类型分类精度:基于清洗后数据的故障诊断方法能够更准确地对不同类型的故障进行分类。例如,在对齿轮箱故障和发电机故障的分类中,使用原始数据时,两类故障的分类精度较低,容易出现误判;而使用清洗后数据故障诊断方法,分类精度提高了约30%,该方法能够更清晰地区分不同类型的故障,为针对性的维护措施提供更准确的依据。实验结果表明,数据清洗后的故障诊断方法显著提升了故障识别的准确性、预警的及时性以及故障类型的分类精度。

根据本文数据清洗故障诊断方法,开发了数据监控和警报系统。该系统可以通过实时监测SCADA系统中的数据流,一旦检测到异常数据点,将立即触发报警机制,并通过多种方式如短信、邮件、声光报警等通知现场运维人员和后台管理人员,以便及时采取措施进行处理,提高数据上传的完整性,保障数据质量和风电场的稳定运行。通过对系统运行数据的统计分析,发现数据上传的完整性提高了约30%,MAE、RMSE等数据质量指标也得到了显著改善。


4、结语


为清洗风电机组SCADA异常数据,本文提出了一种基于Transformer改进的DBSCAN方法,实验结果表明,该方法能够有效地识别和处理异常数据,提高风电机组SCADA数据的准确性和完整性。与传统的异常数据清洗方法相比,本文方法在异常数据剔除率和模型精度方面均表现出优越性,异常数据剔除率较高,达到26.58%;在拟合风速-功率曲线时,MAE、RMSE最低、R2最高,表明其在这些评价指标下的表现较好。此外,使用清洗后数据的故障诊断方法在故障识别的准确性、预警的及时性以及故障类型的分类精度等方面均有显著提升,故障识别准确率提高到了92%以上,故障预警时间缩短了20%,故障类型分类精度提高了30%。该方法不仅提高了风电机组的运行效率和可靠性,还为风电场的运行管理和决策提供了较为可靠的数据支持。在下一步的研究中,可以继续探索该方法在其他类型能源系统中的应用,并结合更多的深度学习技术,提升异常数据识别的准确性和识别效率。


参考文献:

[1]张浩博.基于SCADA数据的风电机组健康状态评估方法研究[D].北京:华北电力大学,2024.

[2]金晓航,许壮伟,孙毅,等.基于SCADA数据分析和稀疏自编码神经网络的风电机组在线运行状态监测[J].太阳能学报,2021,42(6):321-328.

[3]王昊天,姬梓程.基于SCADA数据风电机组发电性能评价研究[J].机电工程技术,2023,52(11):209-212.

[4]董文婷.基于大数据分析的风电机组健康状态的智能评估及诊断[D].上海:东华大学,2016.

[5]曹立新,刘伟民,郭虎全.风电场功率曲线异常数据的清洗与建模[J].兰州理工大学学报,2022,48(4):64-70.

[6]李特,王荣喜,高建民.风电机组数据采集与监控系统异常数据识别方法[J].西安交通大学学报,2024,58(3):106-116.

[7]龚亚雄,高佳浩,李逸,等.基于CNN-BiLSTM的风功率异常数据识别和清洗方法研究[J].能源与环境,2023(5):60-63.

[9]赵天辉,张耀,王建学.基于空间密度聚类和异常数据域的负荷异常值识别方法[J].电力系统自动化,2021,45(10):97-105.

[10]刘畅,郑涛,王志华,等.基于DBSCAN的智能变电站交流采样异常实时识别算法[J].电力系统保护与控制,2024,52(24):140-148.

[11]周梅.基于数据挖掘的生产指标预测方法研究[D].青岛:中国石油大学(华东),2019.

[12]邹同华,高云鹏,伊慧娟.基于Thompsontau-四分位和多点插值的风功率异常数据处理[J].电力系统自动化,2020,44(15):156-162.

[13]梁涛,崔洁,石欢,等.风电机组功率曲线建模方法对比研究[J].计算机仿真.2021,28(2):62-66.


文章来源:张茹顶,张铖,潘钱宇,等.自注意力优化密度聚类的风机数据清洗方法[J].微特电机,2025,53(04):34-38.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

机电工程技术

期刊名称:机电工程技术

期刊人气:978

期刊详情

主管单位:广东省广业科技集团有限公司

主办单位:广东省机械研究所,广东省机械技术情报站,广东省机械工程学会

出版地方:广东

专业分类:科技

国际刊号:1009-9492

国内刊号:44-1522/TH

邮发代号:46-224

创刊时间:1971年

发行周期:月刊

期刊开本:大16开

见刊时间:4-6个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定