首页 > 论文范文 > 工程工业论文 > 工程综合论文 > 矿业工程论文 > 基于数据预处理的岩爆等级预测模型及精度优化

基于数据预处理的岩爆等级预测模型及精度优化

2024-11-19 100 上传者：管理员

摘要：岩爆预测精度对岩体工程灾害预测具有重要的现实意义，精确有效的数据预处理是后续预测工作的基础。通过收集国内外471组岩爆案例建立岩爆数据库，选取围岩最大切向应力、抗压强度、抗拉强度和弹性能量指数作为特征指标，并结合10种机器学习算法构建预测模型。为消除样本中离群值对预测模型的干扰，将离群值清洗范围缩小至单一等级内，根据岩爆烈度等级逐级检测并处理离群值。提出自适应过采样(ADASYN)改善数据分布，在保留少数类样本数据特征的情况下对原始少数类数据进行样本合成，解决各岩爆等级样本不平衡问题。引入遗传算法(GA)对高稳定性模型参数寻优，并结合混淆矩阵和多个评价指标对模型深度评估。研究表明：ADASYN方法将模型综合准确率提升11.58%,并选出最优性能GA-XGBoost模型，预测准确率和加权平均F1值均达到93%;将模型应用于锦屏二级水电站、三山岛金矿和马路坪矿，预测结果与现场情况有较好的一致性，可为今后岩爆预测提供新方法。

关键词：
岩爆预测
数据预处理
机器学习
模型评估
离群值
加入收藏

岩爆是一种典型的岩体塑性破坏现象，表现为硬脆性岩石在开挖状态下导致弹性应变能急剧释放，发生动力失稳[1]。随着地下工程不断向深部推进，高地应力地区岩爆现象频繁发生，严重危害人员、设备和国家财产安全[2]。因此，找到精准预测岩爆的方法，并做出有效防护尤为重要。

国内外专家在岩爆预测领域做了大量研究，从不同角度提出岩爆预测的方法，但是由于岩爆机理十分复杂，仅靠单一判据获得的预测结果准确率并不高。近年来，通过实例样本数据的综合预测方法发展迅速[3],将机器学习算法与岩石力学交叉融合，从实际出发全面解决预测岩爆问题。孙臣生[4]以非线性科学理论为指导，建立了采用9个指标判据的BP神经网络改进预测模型，结合工程实例对模型进行验证。田睿等[5]通过建立了RF-AHP-云模型、IGSO-SVM和DA-DNN3种岩爆预测模型，结合工程实例进行评估分析，减少了人为因素对广义神经网络的影响。为解决岩爆预测中存在的大数据不平衡问题，汤志立等[6]考虑多因素的岩爆预测模型，研究了5种过采样方法及5种客观赋权法对模型性能的影响。李明亮等[7]用T-分布邻域嵌入(T-SNE)降维方法，对数据进行降维可视化，最后，对建立的6种岩爆预测模型进行分析评估。刘晓悦等[8]利用天牛须搜索算法(Beetle Antennace Search Algorithm, BAS)算法解决支持向量机(Support Vector Machine, SVM)中的重要参数C与gamma择优问题，并引用AdaBoost集成学习算法对BAS-SVM弱学习器进行强化训练，解决了单一分类器不稳定问题。

综合上述研究成果，利用机器学习算法构建岩爆预测模型时，需要数据预处理来提升模型精度，但模型的可靠性要基于大量工程实例数据，数据过少会导致模型过拟合。针对目前岩爆案例整合不足的问题，本文收集国内外岩爆案例共471组，建立数据库，并结合10种算法构建预测模型。当前研究易忽略样本中的离群值以及数据结构不均衡的问题，本文提出依据岩爆烈度等级逐级进行离群值处理，缩小离群值检测范围，做到消除单一等级范围内离群值的干扰；提出自适应过采样(ADASYN)改善数据结构，并引入SMOTE过采样、SMOTETomek综合采样进行对比分析；用遗传算法(GA)对预测模型进行参数寻优，再次提高预测准确率。通过多种评价指标评估，选出最优性能模型，为岩爆预测提供新方法。

1、原理分析

1.1 XGBoost算法基本原理

XGBoost(eXtreme Gradient Boosting)是一种集成学习方法，通过组合多个弱学习器来构建一个强大的预测模型[9]。在训练过程中，XGBoost首先初始化一个弱学习器，然后通过梯度下降的方式迭代优化每个决策树。在每一次迭代中，XGBoost计算当前模型的梯度和二阶导数，然后使用这些信息来构造一个新的决策树，该决策树能够减少模型的损失函数。通过重复这个过程，XGBoost逐步改善模型的性能，直到达到预定的迭代次数或损失函数收敛。最后，在预测阶段，XGBoost将每个样本输入到训练好的多个决策树中，并根据决策树的预测结果进行投票或加权平均，得到最终的分类结果。

XGBoost模型如下：

式中：n为树的数目；ft为第t个基模型；

i为预测值；xi为输入的第i个数据。

XGBoost的目标函数可以表示如下：

为训练损失，l指损失函数；

为正则化损失；yi为真实值；T为叶子节点个数；ωj为第j个叶子节点权重；γ为控制叶子节点的个数；λ保证叶子节点的权重不至于太大。为了方便计算，运用泰勒公式进行二阶展开，目标函数的近似表示：

式中：gi为一阶导数；hi为二阶导数。

将正则化项代入上式，并进一步简化(将各个叶子节点中样本合并)得到如下：

;不难发现，这个函数是关于叶子节点权重ωj的二次函数，其最值点w*j和最值Obj分别为：

1.2 遗传算法原理分析

遗传算法(Genetic Algorithm, GA)是一种通过模拟自然进化过程搜索最优解的方法[10]。它根据问题的目标函数构造一个适值函数(Fitness Function),对一个由多个解(每个解对应一个染色体)构成的种群进行评估、遗传运算、选择，经多代繁殖，获得适应值最好的个体作为问题的最优解。遗传算法的具体操作步骤如下：

(1) 生成初始化种群；

(2) 计算种群中每个个体的适应度值；

(3) 判断是否满足迭代停止条件，如满足，则输出当前最优结果；否则，转到步骤(4);

(4) 种群更新操作，即对种群进行复制、交叉及变异等操作，产生出新一代种群转到步骤(2)。

2、样本库及数据分析

2.1 岩爆数据库的建立

岩爆预测模型的输入选择尤为重要，诱发岩爆主要有内、外两种因素[11]。在高地应力环境下，开挖硐室会使应力集中和应力重新分布，此为岩爆发生的外部环境因素变化；围岩最大切向应力反映了岩爆外部因素，即地应力特征。围岩自身的力学属性为内部因素，往往硬岩和脆性岩石更易出现岩爆；岩石的单轴抗压强度、抗拉强度和弹性能量指数，即代表岩石累计弹性能量的能力。根据王元汉等[12]的研究成果，在充分考虑内、外因素对岩爆的影响的条件下，本文选取围岩最大切向应力(Maximum Tangential Stress, MTS)、抗压强度(Uniaxial Compressive Strength, UCS)、抗拉强度(Utimate Tensile Strength, UTS)和弹性能量指数(Elastic Energy Indes, EEI)作为预测模型的特征指标。

基于案例分析的岩爆预测方法中岩爆案例的数量和质量决定模型的可靠性，在有些研究中所参考的案例较少，建立的预测模型泛化性较差[13]。因此，本文收集国内、外岩爆工程实例共471组作为样本数据库。现有岩爆评价体系中，通常将岩爆烈度等级分为无岩爆(Ⅰ)、轻微岩爆(Ⅱ)、中等岩爆(Ⅲ)、强烈岩爆(Ⅳ)。在所建立的岩爆数据库中，岩爆烈度等级分布见表1。

表1 岩爆烈度等级分布情况

2.2 数据预处理

为使预测模型有更高的准确率，首先要对原始数据做预处理，为了更直观地描绘样本数据分布情况，绘制4个特征的高斯函数分布曲线，以及不同特征中分4个岩爆等级的箱线图，见图1。

图1 原始数据分布曲线及箱线图

图1中可见数量级的巨大差异和样本明显左偏现象；图中红色曲线为样本分布曲线，箱线图中实心菱形点代表样本数据极端情况，箱中的水平实线表示中位数，空心方形点表示均值，箱的边界处上、下水平线分别代表第3个和第1个四分位点(颜色标识见电子版)。由于不同特征指标的收集能力不同，就会存在一些数据误差，如某些个别样本的值与大多数其他测量值不同，将这种情况称之为异常数据或离群值[3]。为消除离群值表现出的不合理性和特殊性，提高智能模型精度，通常会对异常值直接剔除，或者对特征指标整体作异常值处理。本文提出将样本中的特征按照Ⅰ、Ⅱ、Ⅲ和Ⅳ级岩爆逐级检测离群值。通过图3中箱线图处理后，计算1.5倍四分位差的值，凡超出上须和下须的值即判定为离群值；为消除离群值干扰，本文用上、下须对应的值进行替换。离群值替换数据见表2。

表2 分等级离群值替换数据

本文所选的4组岩爆特征指标，均为数值型数据，为消除数量级和量纲的影响，对数据库样本进行典型归一化处理。

3、构建岩爆预测模型

由于近年来机器学习被广泛应用在工程领域[14],为解决岩爆预测问题，本文引用经典机器学习算法共10种，分别是SVM,KNN,MLP,RF,XGBoost, GBDT,LDA,NB,AdaBoost和DT,构建岩爆烈度等级预测模型。为防止模型过拟合，本文将预处理后的岩爆样本数据按8∶2比例随机分割训练集和测试集。模型预测步骤见图2。

图2 岩爆预测模型

3.1 多种采样方法

在机器学习中，每个样本对优化目标的贡献一般是相同的，若多数类比少数类大得多，就会导致分类边界更倾向多数类[15]。本文数据库中有Ⅰ级岩爆样本68组，Ⅱ级岩爆样本129组，Ⅲ级岩爆样本182组，Ⅳ级岩爆样本92组。其中，Ⅲ级岩爆样本约是Ⅰ级岩爆样本的2.7倍，反映出原始数据的不均衡性。用欠采样方法处理数据会丢失含有重要信息的多数类样本，随机过采样是采用简单复制来增加样本，易导致模型过拟合。为使岩爆样本在进行重采样后保持原有数据结构，本文提出自适应过采样(ADASYN)处理样本，增加对少数类样本的训练，使数据分布达到平衡；并结合SMOTE过采样、SMOTETomek综合采样对比分析。处理后各岩爆等级样本数目如图3所示。

由图3可知，重采样处理后不同岩爆等级间的样本比例已发生变化，由于每种采样方法核心思想不同，采样后各等级样本数目并非完全一致；ADASYN和SMOTETomek处理后各等级样本比例接近1∶1∶1∶1;SMOTE处理后各等级样本均为182组。

图3 不同处理方法下4个岩爆等级样本数量

3.2 预测结果分析

将未采样样本和3种不同采样方法处理后的样本，分别输入基于10种算法的岩爆预测模型进行训练评估。测试集准确率见表3。

表3 不同采样方法下10种机器学习算法模型预测准确率

由表3可知，样本数据未过采样时，10种算法模型的综合准确率为56.86%,经过SMOTE过采样后，模型综合准确率为66.92%,较未过采样时提升10.06个百分点；经过SMOTETomek综合采样后，模型综合准确率为65.11%,较未过采样时提升8.25个百分点；ADASYN过采样后模型综合准确率最高，为68.44%,较未采样时提升11.58个百分点，其中RF(80.55%)、XGBoost(81.94%)和DT(83.33%)3种模型准确率超过80%。

10种算法模型中以RF和XGBoost稳定性最佳，二者在4种采样状态下的准确率均值都超过了75%;经ADASYN方法处理后，RF模型准确率由62.11%提高到80.55%,增加了18.44个百分点；XGBoost模型准确率由61.05%提高到81.94%,增加了20.89个百分点。因此，ADASYN采样方法对模型性能提升最大，对解决样本数据不均衡问题有明显效果。

3.3 模型参数优化

为提高岩爆预测模型精度，本文引用遗传算法(GA)对RF模型和XGBoost模型的框架参数和学习器参数进行优化。利用遗传算法的反复交叉和重新个体评估操作，找到全局最优解。两种算法主要参数优化情况见表4。

依据上部分的结论，在ADASYN处理样本的基础上，对RF和XGBoost模型泛化能力进行深度评估有重要意义。本文引入准确率(Accuracy,A)、精确率(Precision,P1)、召回率(Recall,R)、F1值和加权平均(Weighted Average)从各岩爆等级到整体评估模型的性能。为了更好理解评价指标，表5总结了分类模型的预测结果的场景。在混淆矩阵中，样本可分为真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)。具体公式如下：

表4 RF和XGBoost参数优化

表5 混淆矩阵

将初始模型与GA优化后模型对比分析，测试集结果以4种岩爆等级展开，见表6;并绘制相应的混淆矩阵图，见图4。

通过混淆矩阵计算出不同岩爆等级预测准确率，由表6可知，经过遗传算法进行参数优化后，GA-RF预测准确率达到90%,较未优化时提高9个百分点；GA-XGBoost预测准确率达到93%,较未优化时提高11个百分点。分等级观察图4和表6发现，RF和XGBoost对Ⅱ级岩爆和Ⅲ级岩爆的误判率较高；整体上观察到二者对岩爆预测更倾向于低级别，但是并未出现将Ⅰ级岩爆误判为Ⅳ级，或者将Ⅳ级岩爆误判为Ⅰ级的情况，属于可接受误差范围。经遗传算法优化后，预测倾向性偏低情况缓解；GA-RF对Ⅳ级岩爆预测能力提升较为突出，F1值达到95%;加权平均F1值为90%。GA-XGBoost模型对Ⅰ级岩爆预测准确率达到100%,F1值达到98%,可以精准判断Ⅰ级岩爆；对Ⅱ级岩爆和Ⅳ级岩爆预测准确率均超过90%,F1值分别为92%和93%,加权平均F1值达到93%,已是本文预测模型中的最大值。

表6 优化前后4等级预测结果对比

图4 混淆矩阵测试集

综合来看，测试集准确率上升，说明经遗传算法(GA)优化后，在一定程度上避免了过拟合，提高了模型的泛化能力，优化效果显著。在实际发生岩爆工程中，不仅要考虑模型的准确率，还要承担预测错误的风险；整体比较后，认为GA-XGBoost模型更加可靠稳定，综合预测能力更强。

4、工程实例验证

为了进一步验证本文构建GA-XGBoost预测模型的准确性和适应性，选取锦屏二级水电站岩爆实例9组、三山岛金矿岩爆实例11组和马路坪矿岩爆实例7组，共计27组应用于本文预测模型；3项工程地质情况详见文献[19]至文献[22]。预测结果如图5所示。

图5 岩爆预测等级

由图5可知，27组岩爆实例中精准预测24组，预测模型将第7组、第10组和第11组判别为邻近等级，属于可接受误差范围。预测模型准确率为88.89%,由此可见经遗传算法(GA)优化的XGBoost模型，可以实现对目标工程可能发生的岩爆等级预测，为地下工程中岩爆安全防护提供参考，以减轻岩爆危害。

5、结论

(1) 本文通过收集471组岩爆工程实例建立数据库，解决此前由于样本数量和质量较差而影响预测模型泛化能力的问题；并提出根据岩爆烈度等级逐级进行离群值处理，将离群值检测范围缩小至单一等级内，有效防止极端数据干扰预测模型精度。

(2) 引入ADASYN方法改善数据分布，并结合10种机器学习算法构建岩爆预测模型。同未处理样本、SMOTE过采样和SMOTETomek综合采样处理，对比分析得到ADASYN方法对模型性能提升最高；有效解决样本不均衡导致的预测结果倾向多数类问题，既保存住原始样本的有效信息，又不会发生过拟合。通过综合表现优选出预测稳定性较高的RF算法模型和XGBoost算法模型。

(3) 用遗传算法(GA)对影响预测模型准确率的框架参数及学习器参数进行择优，提高收敛速度，并在反复交叉操作中得到全局最优值；经GA优化后的XGBoost模型的加权平均F1值达到93%,大幅提升了预测精度。通过将本文构建模型应用于锦屏二级水电站、三山岛金矿和马路坪矿，预测结果与现场情况有较好的一致性，验证了本文预测模型的可靠性。

参考文献:

[1]乔木,周宗红,李岳峰,等.基于主客观赋权 - 物元可拓模型优选岩爆倾向性预测方法[J].有色金属工程,2022,12(8):119-130.

[2]刘剑,周宗红,刘军,等.基于主成分分析和改进Bayes判别的岩爆等级预测[J].采矿与岩层控制工程学报,2022,4(5):16-26.

[3]贾义鹏.岩爆预测方法与理论模型研究[D].杭州:浙江大学,2014.

[4]孙臣生.基于改进MATLAB-BP神经网络算法的隧道岩爆预测模型[J].重庆交通大学学报(自然科学版),2019,38(10):41-49.

[5]田睿,孟海东,陈世江,等.基于机器学习的3种岩爆烈度分级预测模型对比研究[J].黄金科学技术,2020,28(6):920-929.

[6]汤志立,王雪,徐千军.基于过采样和客观赋权法的岩爆预测[J].清华大学学报(自然科学版),2021,61(6):543-555.

[7]李明亮,李克钢,秦庆词,等.岩爆烈度等级预测的机器学习算法模型探讨及选择[J].岩石力学与工程学报,2021,40(增刊1):2806-2816.

[8]刘晓悦,季红瑜.基于AdaBoost-BAS-SVM模型的岩爆预测研究[J].金属矿山,2021(10):28-34.

[9]陈振宇,刘金波,李晨,等.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(2):614-620.

[10]李少波,宋启松,李志昂,等.遗传算法在机器人路径规划中的研究综述[J].科学技术与工程,2020,20(2):423-431.

[11]谢学斌,李德玄,孔令燕,等.基于CRITIC-XGB算法的岩爆倾向等级预测模型[J].岩石力学与工程学报,2020,39(10):1975-1982.