摘要:针对水电机组运行状态预测问题,提出一种基于样本熵重构(sample entropy reconstruction, SER)与随机森林(random forest, RF)-长短期记忆网络(long short-term memory, LSTM)的混合预测模型。首先,利用改进自适应噪声完备集成经验模态分解(improved complete ensemble empirical mode decomposition with adaptive white noise, ICEEMDAN)方法,将复杂非线性振摆信号分解为一组本征模态(intrinsic mode functions, IMFs)分量;其次,采用SER原理重组具有相似复杂度的IMFs,得到多个重构特征分量(reconstruction feature components, RFCs);然后,利用随机森林预测样本熵最小的RFC,利用LSTM预测剩余的RFCs;最后,叠加各RFCs预测结果,实现水电机组状态趋势的准确预测。实验结果表明,所提方法具备更优的预测性能,可为实施机组预测性维护提供可靠的数据支持。
水电机组稳定可靠的运行状态与电厂、电网的安全性密切相关[1]。机组振摆信号中蕴藏着丰富的状态信息,利用数据分析与模型预测相结合的方法来剖析潜在信息,制定预测性维护诊断策略,可以实现事故征兆的捕捉,达到机组状态的早期预警[2,3]。考虑到机组水-机-电多场耦合与性能劣化的综合影响,采集的振摆信号常呈现复杂的非线性特性,传统方法难以对上述信号进行准确预测。本文提出一种基于样本熵重构(SER)与随机森林(RF)-长短期记忆网络(LSTM)的水电机组状态趋势混合预测方法,充分考虑样本熵可准确评估信号分量复杂性的优势以及RF和LSTM优越的模型性能,获取精确的机组状态趋势预测结果,为制定合理运维策略提供可靠依据,对推动机组预测维护向智能化和高效化方向发展具有重要意义。
1、研究方法
1.1 ICEEMDAN原理
Huang等人提出经验模态分解(empirical mode decomposition, EMD)存在模态混叠问题导致本征模态(IMFs)相互影响,从而降低分解效率[4]。为此,Colominas等人提出改进自适应噪声完备集成经验模态分解(ICEEMDAN)方法,改善IMFs的分解精度与质量,增强IMFs物理意义的可解释性[5]。设N(·)表示局部均值运算符,Ek(·)表示经EMD所得的第k个模态,w(i)表示附加高斯白噪声,〈·〉实现整体均值计算,ICEEMDAN分解过程如下:
(1)使用EMD分解原始序列x(i)=x+β0E1(wi),得到第一项残差和模态:
r1=〈N(x(i))〉(1)
式中,x为原始信号;β0为噪声水平系数。
(2)当k=1时,计算第一阶模态:
IMF1=x-r1 (2)
(3)用r1+β1E2(w(i))的局部均值表示残差估计r2,计算第二阶模态:
IMF2=r1-r2=r1-〈N(r1+β1E2(w(i)))〉(3)
(4)计算残差估计rk:
rk=〈N(rk-1+βk-1E(w(i)))〉(4)
(5)计算第k阶模态:
IMFk=rk-1-rk (5)
1.2随机森林
RF是基于决策树的集成学习算法,综合了Bagging和随机选择特征分裂特点,可用于大量处理高维数据,避免过度拟合,具有较高预测精度和鲁棒性[6,7]。RF的核心思想是通过随机抽样获得多个数据子集,每个子集使用一个随机的特征子集进行训练,并在每个子集上构建一棵决策树,这些决策树的结果被综合利用得到最终的预测结果[8,9]。RF的模型结构如图1所示。
图1 RF模型结构示意图
具体计算步骤如下:
(1)假设输入样本集D={(x1,y2),(x2,y2),…,(xn,yn)},采用Bootstrap随机抽样法从D中抽取样本容量为n的样本集,构建新的训练集Dt;共抽取m次,形成m个相互独立的训练集{Dt,t=1,2,…,m};
(2)依次对Bootstrap训练集构建决策树(共计m棵),从全部M个属性中随机选择m(m≤M)个最佳节点分支;
(3)经过k轮训练,得到决策树模型序列{h1(x),h2(x),…,hk(x)},利用投票法或平均法进行决策集成,得到最终预测结果。RF的分类决策定义如下:
式中,fc(x)表示RF集成结果;hi为单棵决策树结果;Y表示输出变量;I为指示函数。
1.3长短期记忆神经网络
递归神经网络(recurrent neural network, RNN)相较于传统神经网络具备良好的记忆功能,但在捕捉时间序列长期依赖性方面存在局限性。LSTM在RNN的基础上,通过引入门控操作,解决其梯度爆炸的问题[10,11]。LSTM的单元结构由门控机制组成,基本结构如图2所示。
图2 LSTM门控机制结构图
执行过程从第一层遗忘门开始,计算公式表示如下:
ft=σ(Wf[ht-1,xt]+bf) (7)
式中,Wf为遗忘门权重矩阵;ht-1为前一时刻的隐藏状态;xt为当前时刻t的输入;bf为遗忘门偏置参数;σ(·)为Sigmoid函数,即:
σ(·)=1/(1+e-z) (8)
其中,z表示Sigmoid函数输入变量。
第二层为输入门,计算公式为:
it=σ(Wi[ht-1,xt]+bi) (9)
式中,Wi为输入门权重矩阵;bi为输入门偏置参数。
临时单元状态Cˆt
由tanh计算可得,即:
(11)
第三层为输出层,由Sigmoid函数决定部分更新状态,tanh函数约束输出值在区间(-1,1)之内。输出层计算表达式如下:
ot=σ(Wo[ht-1,xt]+bo) (12)
ht=ot·tanh(Ct) (13)
式中,Wo为输出门权重矩阵;bo为对应的偏置参数。
2、基于SER与RF-LSTM的机组状态趋势预测方法
2.1样本熵重构机制
样本熵是衡量信号复杂度的量化指标,用于分析时间序列的随机性和不规则性[12]。样本熵值越大,时间序列自相关性越低。使用样本熵重构具有相近复杂度的IMFs分量序列,可显著提升计算效率,同时提高预测精度。基于样本熵的IMFs重构策略详述如下:
假设Ci={c1,c2,…,cN}代表经过ICEEMDAN分解所得的IMFs分量,预设嵌入维数m,重构Ci得到N-m+1个名为Cm(i)的子序列,其中Cm(i)={c(i),c(i+1),…,c(i+m-1)},1≤i≤N-m+1。计算Cm(i)与其他N-m个子序列对应元素中最大差值的绝对值,用d[Cm(i),Cm(j)]表示,即:
d[Cm(i),Cm(j)]=maxk=0,⋯,m−1[|c(i+k)−c(j+k)|], 1≤j≤N−m,i≠j (14)
对Cm(i),预设相似容限r值并统计d[Cm(i),Cm(j)]≤r的数目,记作Bi,用Bmi
(r)表示此数目与总数N-m+1的比值,即:
Bmi(r)=BiN−m−1,1≤i≤N−m
(17)
通过给定嵌入维数m和相似容限r值,可计算得分量样本熵S如下:
S(m,r)=limN→∞{−ln[Bm+1(r)Bm(r)]}
(19)
由样本熵定义可知,m和r值对计算结果非常重要,通常情况下,m=1或m=2且r=0.1~0.25Ds(Ds为原始序列标准差)时,计算性能最佳。基于相似性重构理论,将原始IMFs分量重组成RFCs,降低IMFs分量复杂度。RFCs计算表达式如下:
式中,RFCs表示重构特征分量;ci(t)为经过ICEEMDAN分解所得的第i个IMF分量;Si和Si+j分表为第i个和第i+j个IMF的样本熵值;Smax和Smin分别为m个IMF分量中最大和最小的样本熵值。
2.2预测步骤
振摆信号是度量机组运行状态的重要指标,具有振幅大、谐波成分多、随机性强的特点。针对上述特征,本文提出一种基于SER和RF-LSTM模型的机组状态趋势预测方法,其流程如图3所示,详细步骤如下:
(1)通过监测设备,以固定采样频率fs对水电机组振摆信号进行采集;
(2)将采样数据集随机划分为训练集和测试集;
(3)利用ICEEMDAN算法对信号训练样本集进行分解,获得IMFs分量集合;
(4)通过SER原理,利用式(20)对IMFs分量进行重构,生成RFCs集合,作为预测模型训练样本;
(5)利用RF模型预测样本熵值最小的RFC,用LSTM预测剩余的RFCs;
(6)叠加各RFCs预测结果,得到机组状态趋势预测结果;
(7)将步骤(6)中预测结果和步骤(2)中划分的测试集进行比较,评估所提方法的预测性能。
图3水电机组状态趋势预测方法流程图
2.3模型建立及参数设置
针对上述预测步骤中内容,本文使用编程语言Python对样本熵重构机制获得的RFCs进行处理。首先采用滑动窗口划分预测步骤(4)中的训练样本,对RFCs进行归一化数据处理,以7∶3的比例将RFCs划分为模型训练样本集和验证样本集;其次根据RFCs的复杂度,采用网格搜索、随机搜索等方法寻求训练模型最优参数组合;最后在训练过程中,关注模型的拟合情况和过拟合情况,以调整模型的复杂度和参数设置,并将测试集输入到训练模型中获得模型评估。本文具体的模型参数设置见表1。
3、实验结果分析
本文选取国内某水电厂5号机组摆度信号为实验数据。监测振摆信号的传感器布置如图4所示。实验数据中,每两个数据点采样间隔时间为30min,包含2018年6月18日18:30至6月21日20:30采集到的水导轴承y方向的摆度数据共计196组。随机取140个数据点作为训练集,剩余56个数据点作为测试集。原始摆度时间序列如图5所示。
由图5可知,机组摆度信号波动较大且呈现显著非线性特征。为进一步揭示原始序列变化性质,采用ICEEMDAN算法提取信号时频特征,为后续开展机组状态趋势预测提供数据基础。原始信号经ICEEMDAN分解后所得IMFs分量的时域波形如图6所示。
由图6可知,原始摆度信号被分解为8个IMF分量,从IMF1至IMF8趋于平稳,但过多的IMF分量降低了信号分析的可解释性和可视化效果。本文提出的SER方法充分利用IMF分量的局部性和自适应性优点实现重构策略,可有效减少IMFs个数,生成的RFCs可降低预测模型的训练复杂性,提高预测精度。根据式(14)~(19),依次求取IMF1~IMF8的样本熵值,分别为:0.5286、0.1833、0.2899、0.5468、0.2478、0.1375、0.0542、0.0032。基于式(20),将IMF7~IMF8重构得到RFC1,IMF2、IMF5、IMF6重构得到RFC2,IMF3重构得到RFC3,IMF1、IMF4重构得到RFC4。RFCs重构结果见表2,重构波形如图7所示。
利用RF算法对RFC1进行预测,LSTM对RFC2~RFC4进行预测,进而得到机组状态趋势预测结果。此外,为验证本文所提方法的优越性,选取LSTM、RF和SVR作为对比模型,各模型预测结果如图8所示。
可以看到,本文所提方法可实现机组状态趋势的准确预测,拟合性能最优。同时,选取平均绝对误差(MMAE)、平均绝对百分比误差(MMAPE)和均方根误差(RRMSE),作为量化评价模型预测性能的指标[13]。上述量化指标的定义如下:
式中,yi表示真实值;
表示预测值;n为预测值总数。
表3列出了各模型的预测精度指标,从表中看到,所提方法的3种指标均低于其他模型。综上,本文所提方法能更精确地预测水电机组运行状态趋势,对提高机组发电效率和运行安全水平具有重要意义。
4、结论
本文针对已有方法预测水电机组状态趋势时遇到的精度低、波动大等问题,提出了一种基于SER与RF-LSTM的状态趋势预测新方法。具体而言,采用ICEEMDAN分解原始信号,基于SER策略重构所得的IMFs分量,通过构建的RF-LSTM混合模型,得到机组状态趋势预测结果。通过实验分析及对比验证可知,所提方法可实现机组状态趋势的精确预测,具有广阔的工程应用前景。本文用LSTM预测RFC4时,出现欠拟合和过拟合的频率较高,未来的研究可以集中在模型复杂性、样本平衡、集成学习和优化算法等方面,以解决欠拟合和过拟合问题,并提高机器学习和统计建模的性能和可靠性。
参考文献:
[1]陆丹,肖志怀,刘东,等基于EEMD-GA-BP的水电机组状态趋势预测[J]中国农村水利水电, 2021,466(8):186-194.
[2]张飞,刘兴华,潘伟峰,等水电机组振动监测与评价技术综述[J].大电机技术, 2021(4):45-54.
[3]董亚明,李辉,谢晓龙基于遗传算法与支持向量回归的发电机运行参数趋势预测[J].大电机技术, 2018(2):22-26.
[6]匡南,吴见彬,朱建平,等随机森林方法研究综述[]统计与信息论坛, 2011,26(3):32-38.
[7]赵超,张迅,王冕,等基于改进随机森林的电力变压器试验和监测数据气体浓度预测[J/OL].电测与仪表: 1-8[2023-07-01.
[8]杨思琪,赵丽华随机森林算法在城市空气质量预测中的应用[J]统计与决策, 2017(20);:83-86.
[9]王涛基于随机森林的机载设备异常振动故障检测方法[J]电子设计工程, 2023,31(8):119-122.
[10]李文武,石强,王凯,等基于变分模态分解和深度[ ]控网络的径流预测[J].水力发电学报, 2020,39(3):34-44.
[11]邹洪,刘家豪,陈锋,等基于递归神经网络的原始训练数据防泄漏密码生成系统设计[J].电子设计工程, 2022,30(5):122-126.
[12]赵志宏,杨绍普:-种基 于样本熵的轴承故障诊断方法[J].振摆与冲击, 2012,31(6):136-140.
文章来源:姜伟,卢俊泽,许颜贺.基于样本熵重构与RF-LSTM模型的水电机组状态趋势预测[J].大电机技术, 2024, (02): 74-80.
分享:
文圩水文站设立于2013年9月,位于广西梧州市蒙山县文圩镇文圩街,集雨面积151 km2,系珠江流域西江水系蒙江中小河代表站,是国家水文站,属于无人值守站,河面宽约90 m,断面上游200 m处为一河滩且建有桥梁一座,下游120 m处2021年新建公路桥一座,现有测验项目为雨量、水位、流量、比降等。
2024-03-04研究表明,针对软岩地层中TBM的应用,尤其是TBM安全施工和工程事故中的解困和脱困[2]2],除基于软岩特性的TBM合理造型[4]4]和及时清洁刀具[5]5]等措施外,合理设置扩挖间隙、护盾和洞壁之间注入油脂、钻爆法预处理、设置超前支护、加快掘进速度等措施[5,8,9,10,11]5,8-11],也可降低软岩中TBM施工卡机风险。软岩地层中TBM卡机的原因主要是软岩的大变形对TBM护盾的强烈挤压[12]12],经统计,由软岩挤压变形导致的工程事故占TBM事故的37%[5]5]。
2024-03-04绿色能源基地运行过程中既有水电与新能源的丰枯季节性互补,又有风光发电之间的日内互补,故其具有构建大型可再生能源基地的优势。新能源的接入改变了传统电网中电源与网架结构。一方面,高占比水电系统调速器参数的不合理设置容易引发超低频振荡[1,2];另一方面,风电等不参与系统一次调频的可再生能源接入将导致系统整体惯量的下降,不利于系统稳定[3]。
2024-03-04塑性混凝土是一种低弹模、低强度、大应变、强抗渗的柔性工程材料。与普通混凝土相比,塑性混凝土的水泥用量低、膨润土(黏土)用量高,因此其变形模量与大坝土体的变形模量相近,可以很好地与大坝基础相适应。
2024-03-04风险调查是社会稳定风险分析的基础性工作,科学、合理、准确、全面的风险调查对识别项目风险因素、制订风险防范化解措施具有重要意义。特别是供水管道、灌溉渠系、堤防建设、河道整治等关乎国计民生的线性水利工程,往往线路较长、占地影响和环境影响涉及范围广、利益相关者众多,风险调查工作的方法选择、调查范围、调查重点等有其特殊性,因此对其进行研究是十分有必要的。
2024-03-04由于长歧水文站水位在小于29.40 m时,不满足《水文巡测规范》(SL195-2015)第4.5.8条规定,高水35.00 m以上用于计算误差的样本也只有6个,高水样本较少。对长歧水文站单值化分析结果作出如下结论:长歧水文站水位在29.40~35.00 m水位级内可实行停2~5年测1年的测验方式,停测期间采用历年水位流量关系综合曲线推求流量;其他水位按原测验方案进行测验并推流。
2024-03-04分洪闸是一种重要的水利工程,可以调节河流水量、防止洪水泛滥、保护下游地区安全,也是流域防洪调度、水资源管理的重要保障。随着智慧水利技术的演进,数字孪生分洪闸建设成为提升分洪闸智能化水平的优先方案。数字孪生分洪闸可以实时监控物理分洪闸,及时发现问题,优化调度,以实现预报、预警、预演、预案(以下简称“四预”)的功能,优化水资源配置,保护生态环境。
2024-02-20视觉AI中台作为人工智能技术在视频监控领域的应用,目前正处于快速发展的阶段。随着算法和计算力的不断发展,视觉AI中台已在安防监控、城市管理、工业生产、医疗健康等多个领域得到推广应用[1]。基于智能识别和分析,能够实现人脸、车牌的辨认等功能,用以提高监控系统的准确性和响应速度。在城市管理中,视觉AI中台可用于交通监管、环境监测等方面[2]。
2024-02-20如今,信息化技术迅速发展,在各行各业中有着重要的作用,能够带来很多益处,在当今的生产和生活中发挥着不可代替的作用,随着科学技术的发展,我们可以更好地收集、整合、分析水利工程的相关数据,以便更加精细地掌握施工情况,并且能够更好地协调不同的参与者,以此来提高水利工程的施工质量,并且能够更加精细地掌握所受的外部环境的变化,以达到更好的施工管理效果。
2024-02-20人工生态浮岛是以可漂浮材料作为漂浮载体,在其上种植水生植物或改良的陆生植物,用于污染水体的水质净化和生态修复的漂浮结构,由浮岛植物、浮岛平台、固定系统组成[1]。生态浮岛不仅能够净化水质修复水环境,还具有提供动植物生长环境、改善水体景观、消浪护岸等综合作用[2,3],在河道生态修复与水环境治理工程中得到了广泛的应用[4,5]。
2024-01-19我要评论
期刊名称:大电机技术
期刊人气:711
主管单位:哈尔滨电气集团有限公司
主办单位:哈尔滨大电机研究所
出版地方:黑龙江
专业分类:电力
国际刊号:1000-3983
国内刊号:23-1253/TM
邮发代号:14-11
创刊时间:1971年
发行周期:双月刊
期刊开本:大16开
见刊时间:4-6个月
影响因子:0.814
影响因子:1.445
影响因子:0.657
影响因子:0.000
影响因子:0.688
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!