首页 > 论文范文 > 工程工业论文 > 工程综合论文 > 矿业工程论文 > 基于网格优化双层随机森林的采空区煤氧化升温预测研究

基于网格优化双层随机森林的采空区煤氧化升温预测研究

2024-06-03 78 上传者：管理员

摘要：为了对采空区煤氧化升温的温度进行预测，在内蒙古某煤矿16402综放工作面进行长期的采空区气体和温度观测实验，采集到准确的采空区煤氧化升温过程中气体及温度数据，提出1种基于网格优化双层随机森林(WG-DRF)的采空区煤氧化升温预测方法，用该方法构建预测模型并与传统随机森林、BP神经网络和支持向量回归模型的预测结果进行对比。研究结果表明：WG-DRF模型预测的平均绝对误差MAE,均方误差MSE,决定系数R2分别为1.725,6.158,0.903,优于其他模型。通过更换数据集对WG-DRF方法进行测试，验证双层随机森林模型具有较强的泛化性。研究结果可为采空区煤氧化升温的温度预测提供参考。

关键词：
温度预测
煤氧化升温
矿业工程
网格优化双层随机森林
采空区
加入收藏

采空区煤氧化升温引发火灾是威胁煤矿安全高效生产的主要因素之一，不仅会造成煤炭资源的浪费，还会威胁煤矿工作人员的生命安全[1,2]。为遏制火灾事故的发生，对煤氧化温度的准确预测成为火灾预防的关键前提[3]。煤在不同氧化阶段，产生的一系列气体体积分数也在不断变化，可以从中选择出指标气体，通过测得指标气体体积分数随煤氧化过程的变化情况来预测采空区遗煤温度[4]。目前大多数矿井采用气体分析法，其主要是通过抽取采空区内煤氧化过程中产生的指标气体，观察指标气体的体积分数变化情况来预测自然发火状况。

由于采空区煤自然发火的各影响因素之间呈非线性关系，气体分析法难以达到满意的预测目的。因此，近年来诸多学者运用不同的机器学习算法对采空区煤自燃这种非线性问题进行大量研究[5]。昝军才等[6]通过神经网络学习方法研究采空区气体质量分数与煤自燃温度之间的关系。张天宇等[7]通过支持向量机分类算法结合多种标志性气体构建煤自燃危险性预测模型。张辛亥等[8]利用气体分析法结合神经网络算法建立BP神经网络预测模型。姜鹏[9]通过构建传统的随机森林模型对采空区煤自燃温度进行预测。神经网络方法虽然具有不错的非线性处理能力，但对样本数据量要求较高且普遍存在收敛速度较慢的缺点[10,11]。支持向量机(SVM)避免了神经网络方法的缺点，但其对参数的调试以及核函数的选取是很复杂问题，不同的函数和参数结合后的结果差异较大[12]。传统随机森林方法在对遗煤温度的预测精度方面也有所欠缺，而且对模型超参数的调整太复杂。

针对上述问题，本文提出1种基于网格优化双层随机森林方法对采空区煤氧化升温的温度进行预测。通过研究模型的超参数选取对煤温的预测效果影响情况，并与BP神经网络方法和支持向量回归方法进行比较，不断对双层随机森林的超参数进行调整优化。通过综合分析后，证明网格优化双层随机森林模型对采空区煤氧化升温温度的预测效果良好。

1、方法原理

1.1 随机森林

随机森林(random forest, RF)是1种属于集成学习中Bagging的算法[13],本文采用基于Bagging的随机森林回归算法[14]。回归随机森林的步骤包括：随机选择样本、随机选择特征、构建决策树、集成预测。Bagging采用的是随机有放回的选择训练数据构造分类器，最后组合。详细过程如图1所示。

图1 随机森林算法结构

随机森林生成步骤如下：

步骤1从训练数据中选取n个数据作为训练数据输入，这样就会造成有部分数据是无法被取到的，这部分数据被称为袋外数据，可以用做误差分析。

步骤2选取输入的训练数据后，构建决策树，根据基尼指数减少的策略确定分裂属性，如式(1)所示：

(1)式中：T为样本数；K为样本中的类别数；pk为类别k在样本T中出现的频率。

步骤3重复步骤2,直至无法分裂或达到设定的阈值，此时建立1棵决策树，每棵决策树都尽最大程度的生长，没有剪枝过程。

步骤4重复以上步骤1～步骤3,直至达到预定树的棵数为止。

步骤5将生成的所有决策树组成随机森林，然后用随机森林对新输入的数据进行预测。

1.2 网格优化双层随机森林

1.2.1 双层随机森林

双层随机森林是在随机森林的基础上，通过对数据中特征变量的特征重要性进行评估，根据每个特征变量的特征重要性评分进行排序，把特征重要性评分最低的1个特征变量数据去掉重新构建预测模型。对比前后2个模型的预测效果与合理性来确定是否进行下一次的数据降维，确定最终的双层随机森林数据集。模型统一采用平均绝对误差MAE作为评价标准。

1.2.2 优化算法

网格搜索优化算法是1种穷举搜索方法，其通过遍历双层随机森林中超参数的所有可能组合来寻找最优超参数[15]。网格搜索为每个超参数设定1组候选值，生成这些候选值的笛卡尔积，形成超参数的组合网格，网格搜索会对每个超参数组合进行模型训练和评估，得到性能最佳的超参数组合。

1.3 BP神经网络与支持向量回归算法

BP神经网络算法即误差逆传播算法是为学习多层前馈神经网络而设计的，是迄今为止较广泛的神经网络学习算法之一[16]。支持向量回归是基于SVM通过升维后，在高维空间中构造线性决策函数来实现线性回归。

1.4 模型评估指标

采用平均绝对误差MAE、均方误差MSE、均方根误差RMSE、决定系数R2、平均绝对百分比误差MAPE 5个指标对模型的预测精度、泛化能力和稳定性进行评估。

1.5 数据采集

为了获得真实准确的采空区现场数据，本文以内蒙古某煤矿16402综放工作面为研究背景进行数据采集实验。16402工作面走向长度2 400 m, 倾向长度180 m, 采用走向长壁后退式综合机械化放顶煤采煤法，开采深度为775～1 250 m, 采用“U”型通风方式。工作面倾角7°,平均煤厚8.8 m, 机采高度2.85 m, 平均放顶煤高度5.75 m, 煤层为Ⅱ类自燃煤层，易发生自燃。

现场数据监测方案为沿16402工作面进、回风巷道，采用预先埋管的方式提前铺设束管。主要布置方式为：分别沿进、回风巷道下部靠外帮铺设多芯束管及测温导线，采用套管保护，沿工作面倾向方向布置有5个测点。1～3测点的束管及传感器连接到进风巷采集站，4～5测点的束管及传感器连接到回风巷采集站。在距离工作面150 m处，于2022年7月3日—2022年8月5日的每天上午9∶00采用矿用自动负压采样器抽取采空区内气体并记录各测点温度。采空区束管监测及数据采集系统如图2所示。

图2 采空区束管监测及数据采集系统

2、双层随机森林模型构建及优化

2.1 数据选择及处理

随着工作面推进，由于放顶煤以及顶板来压，布置于工作面中部的3～4测点被毁坏，最终1测点，2测点，5测点3个测点取得较完整的数据。整个实验过程共采集到包含测点到工作面的距离、温度、O2体积分数、CO质量浓度、CO2体积分数、CH4体积分数、N2体积分数7个变量的220组数据信息。由于在数据采集过程中存在设备故障、人工失误等因素影响，对原始数据进行无效数据剔除和缺失值处理，最后得到180组有效数据可用于预测模型的学习训练。在预测模型构建过程中，考虑到煤温与其他变量之间的复杂关系，单独选择其中1部分可能会忽略掉某些重要信息，而综合考虑这些因素可以提高预测模型的准确性和全面性。因此选择测点距工作面的距离与O2,CO2,CH4,N2的体积分数以及CO质量浓度作为模型的特征变量输入，温度作为模型目标变量输出。采空区温度变化情况如图3所示。

图3 采空区煤温度变化曲线

为了更直观地展现出所测数据情况，本文采用Origin 2022软件绘制温度，O2,CO,CO2,CH4,N2曲线图如图4所示。图4中的X轴代表工作面宽度，Y轴代表测点距工作面距离，Z轴代表各个特征变量。

2.2 模型构建与参数设置

根据RF生成步骤1～步骤5构建传统的随机森林模型。模型的构建采用随机重复采样的方式生成100棵决策树，每棵决策树节点分裂选择最优划分属性进行划分，每棵树都尽最大程度的生长且不剪枝，依据双层随机森林构建方法构建第2层随机森林模型。

第1层随机森林模型的评分结果为：MAE(3.67),6个特征变量的重要性评分分别为：O2(0.164 7),CO(0.152 9),CO2(0.198 2),CH4(0.181 4),N2(0.137 5),测点距工作面距离(0.165 3)。具体对比情况如图5(a)所示。其中，N2的重要度评分最低，从原始数据集中去除N2的数据。整理后构建第2层随机森林模型，并进行相应的模型评测以及变量特征重要性计算。第2层随机森林模型的评分结果为：MAE(3.79),5个特征变量的重要性评分分别为：O2(0.199 3),CO(0.201 2),CO2(0.238 4),CH4(0.164 6),测点距工作面距离(0.196 5)。

对比2个模型评测结果，去除掉N2的数据后模型的平均绝对误差变化很小，说明N2对预测结果的影响可忽略不计，可以舍弃该特征变量。具体情况如图5(b)所示。

通过观察第2层模型的特征变量重要性评分结果，CH4的重要性评分最低。在数据集中去除CH4的数据后再次构建模型并对模型的预测效果评测。评测结果为：MAE=4.39,比没有去掉CH4数据的模型预测效果降低较多。因此，最终的数据集确定为不去掉CH4的数据。

图4 采空区温度和气体变化3D曲线

图5 特征重要性对比

2.3 模型优化

分别对DRF模型、BP神经网络模型、SVR模型进行优化。DRF模型的超参数有决策树数量、决策树最大深度、叶子节点最小分裂数；BP神经网络模型受隐含层节点数、激励函数、初始化权重、正则化项参数的影响，SVR模型主要受核函数类型、惩罚因子和标准差值3个超参数的影响。建模步骤如下。

步骤1引入Python方法库，加载回归数据集。

步骤2将数据集按照8 ∶2的比例划分为训练集和测试集。

步骤3定义模型和参数网格。分别对DRF模型、BPNN模型、SVR模型定义参数网格。

步骤4网格搜索。使用Sklearn中的GridSearchCV进行网格搜索和交叉验证。

步骤5使用GridSearchCV返回的最佳模型，在整个训练集上进行训练，然后使用测试集对模型进行评估，计算回归性能指标。

步骤6分析返回结果，根据最佳模型参数组合和性能指标结果重新定义超参数范围，返回步骤3,直至DRF、BPNN、SVR模型的预测性能指标结果达到最佳。

3、模型对比分析

3.1 模型对比

根据网格搜索优化后双层随机森林模型的超参数寻优结果为：决策树数量为200、最大深度为5,最小节点分裂数为3;BP神经网络模型的超参数最终寻优结果为隐含层节点为(50,100,50),激励函数tanh, 初始化权重，正则化项参数为0.001;SVR回归向量机模型的超参数最终寻优结果核函数为linear,惩罚因子为1,标准差值为1。

将RF,WG-DRF,WG-BPNN,WG-SVR这4个模型的预测结果进行比较，如图6～8所示。

由图6可知，传统随机森林模型的泛化能力较弱，网格优化后的双层随机森林模型在训练集和测试集上的预测结果全都贴近误差线，预测结果更准确、泛化性更强。

由图7可知，WG-SVR和WG-DRF模型在35 ℃之前的预测精度都较高，在35 ℃之后的WG-SVR的预测效果骤降，表明WG-SVR模型的稳定性不好。SVR模型受惩罚因子和标准差值影响较大，使得模型的健壮性较差。相比来说，WG-DRF模型更容易进行参数寻优，在整个预测过程中的预测效果一直很稳定。

图6 RF与WG-DRF模型结果对比

图7 WG-DRF与WG-SVR模型结果对比

图8 WG-DRF与WG-BPNN模型结果对比

由图8可知，WG-BPNN模型在40 ℃之前的预测效果很好，在40 ℃之后预测结果的误差较大。神经网络模型受隐层节点数及所含神经单元数量的影响较大，因此，WG-BPNN不论是在训练集上还是在测试集，模型的预测精度前后相差较大，存在过拟合现象。而WG-DRF模型的预测效果全程都很稳定，预测效果更佳。

不同模型的测试集性能指标数据如表1所示。WG-BPNN模型的预测效果较好，但对采空区煤氧化升温预测来说，温度的预测结果越准确越好。WG-SVR模型的各个指标不协调，其中MSE对比其他指标来说偏高，表明模型的存在过拟合现象。综合来看，WG-DRF模型在预测精度、稳定性、泛化性等方面更突出，对煤矿采空区煤氧化升温温度的预测更准确。

3.2 模型泛化能力分析

为了减少数据集的偶然性，也为了验证模型的泛化能力，以文献[17]数据为研究对象，对比分析模型在其他矿井中的预测效果。文献[17]中武向强在邹庄煤矿7401工作面采用束管监测系统对采空区内的温度和气体数据进行采集，按照氧气体积分数变化情况进行煤炭自燃“三带”划分。本文整理该文献中有效数据54组，以温度作为目标变量，以O2,CO,CO2作为特征变量进行模型性能测试。按照WG-DRF模型的构建思路构建新的预测模型。

表1 不同模型预测性能指标

通过对比图9与图6(b),可以看出前者所述模型的预测效果比后者稍差，不过采用文献[17]中数据所建模型在测试集和训练集的预测结果也紧靠误差线。另外，观察表2与表1中WG-DRF的模型预测性能指标，可以得出，文献[17]中数据集所建模型的MAE指标增加0.174,MSE指标增加0.857,RMSE指标增加0.031,R2指标降低0.025,MAPE指标增加0.58个百分点。因为构建模型的数据相对少，模型的预测精度稍微降低是合理的。综合来看，WG-DRF模型具有较高的预测准确率和较强的泛化能力。

图9 WG-DRF模型效果测试结果

表2 不同数据集WG-DRF模型预测效果

4、结论

1)引入双层随机森林方法对采空区煤温度进行预测，相比于传统随机森林，提高了模型的预测准确率和稳定性。通过对特征变量重要性的计算，实现数据降维，减少预测时间，提高了模型的抗干扰性和预测效率。

2)提出采用网格搜索优化算法对双层随机森林的超参数进行优化，在决策树数量为200,最大深度为5,最小节点分裂数为3时模型的训练误差达到最小。此时模型预测结果紧密分布于误差线附近且评估指标R2和MAPE分别为0.903和4.072%,整体预测效果较好，可以有效预测采空区煤氧化升温的温度。

3)通过对比分析模型的预测精度、泛化性、鲁棒性及MAE等5个指标对RF,WG-DRF,WG-BPNN,WG-SVR模型的评测结果可知，WG-DRF模型的各方面表现优于其他模型。

参考文献:

[1]周西华,曾晓坤,白刚,等.基于响应曲面法的遗煤自燃分析与研究[J].中国安全生产科学技术,2020,16(10):34- 39.

[2]郭庆.采空区煤自燃预警技术及应用研究[D].徐州:中国矿业大学,2021.

[5]张利冬,宋泽阳,罗振敏,等.基于机器学习的煤自然发火期预测[J].中国安全科学学报,2022,32(12):118- 124.

[6]昝军才,魏成才,蒋可娟,等.基于BP神经网络的煤自燃温度预测研究[J].煤炭工程,2019,51(10):113- 117.

[7]张天宇,鲁义,施式亮,等.基于支持向量机分类算法的多煤种煤自燃危险性预测[J].湖南科技大学学报(自然科学版),2019,34(2):11- 17.