首页 > 论文范文 > 自然科学论文 > 资源科学论文 > 能源资源论文 > 能源产业信息自动挖掘基于模糊聚类分析的建模研究

能源产业信息自动挖掘基于模糊聚类分析的建模研究

2024-01-04 22 上传者：管理员

摘要：针对当前能源产业信息挖掘结果完整性差的问题，提出一种基于模糊聚类分析的能源产业信息自动挖掘建模方法。在模糊聚类分析算法中引入核学习算法，添加Gaussian核函数，搭建核模糊分析算法。确定核模糊分析算法的初始聚类中心，利用粒子群优化算法优化初始聚类中心，根据优化的初始聚类中心建立能源产业信息自动挖掘的目标函数，获取适应度值。根据适应度值与目标函数选择最佳个体，求解最佳个体的聚类有效性函数，解码输出聚类有效性函数最大时所对应的最优聚类数量与对应的聚类中心，以此搭建能源产业信息自动挖掘模型。实验结果表明，该模型可有效挖掘能源产业信息，在数据集规模不同的情况下该模型的调整兰德系数均较高，挖掘结果的完整性较高，自动挖掘效果佳。

关键词：
密度聚类
有效性函数
模糊聚类分析
粒子群
能源产业信息
自动挖掘
加入收藏

新型能源产业能够为用户提供智慧用电方案，电费谷值时储电，峰值时用电，将大幅度减少用户电费[1,2,3]，还可以利用互联网对信息流进行跨界交换，为用户提供实时的电表数据，但是随之而来的问题是能源产业信息剧增[4,5]，加大了信息挖掘难度。文献[6]通过模糊C均值算法聚类降维后的特征数据，获取数据挖掘结果，该模型具备较优的数据聚类效果。文献[7]依据模糊神经网络建立数据挖掘模型结果。但这两种方法均存在计算开销较大的缺点，在挖掘较大规模的信息时实时性较差，在数据维度不同时的挖掘效果较差。

模糊聚类分析算法具备模糊集合理论的特点，在各大领域均取得了较优的应用效果，可全面呈现数据集的结构[8]，聚类效果较佳。为此建立基于模糊聚类分析的能源产业信息自动挖掘模型，以此精准自动挖掘能源产业信息。

1、能源产业信息自动挖掘建模方法

1.1确定初始聚类中心

利用基于密度聚类算法确定初始聚类中心[9]，步骤如下：

步骤1：通过基于密度聚类方法获取o维Xφ内每维中的聚类中心gj′h，相应区间[ajh,βjh]内能源产业信息样本点数量为ri,i∈{1,2,⋯,n}；

步骤2：利用各子区间cjh内的ri建立能源产业信息标号子集Rjh，计算每维子区间相应的长方形单元在Xφ内建立的τ个交集dτ[10];

步骤3：计算dτ的确切度ρ，公式如下：

式中，构建dτ的o维子区间中相应标号子集的并、交分别为Rτ、dτ′。

步骤4：以ρ符合dτ为前提，确定能源产业信息样本集的孤立点，公式如下：

在γ未超过设定百分比值的情况下，代表dτ内的能源产业信息样本点属于孤立样本点，即虚聚类[11,12]，通过步骤4可获取τ′个符合ρ与γ条件的有效聚类子集d″τ′；

步骤5：通过k-均值聚类算法聚类处理d″τ′，获取d″τ′内的聚类中心gj′h，即KFCM算法的初始聚类中心[13]。

1.2粒子群优化KFCM算法

利用粒子群优化（Particle Swarm Optimization,PSO）算法优化gj′h，缩短KFCM算法的聚类时间[14]，提升能源产业信息自动挖掘精度。

PSO内的一个粒子代表一个初始聚类中心集合G=(g1′h,g2′h,⋯,gc′h),xiφ和gj′h的维度一致，设置PSO的适应度函数，公式如下：

若KFCM算法的能源产业信息自动挖掘效果有所改善，Jfφ会变小，相反f′(xiφ)会提升，因此f′(xiφ)与能源产业信息自动挖掘效果具有正相关关系。

利用PSO优化gj′h的具体步骤如下：

步骤1：设置样本数量c与允许误差δ;

步骤2：设置群体规模n，惯性权重ω，学习因子η1、η2，指数权重w;

步骤3：初始化粒子群g1′h,g2′h,⋯,gc′h，随机形成的聚类中心集合是Xφ={x1φ,x2φ,⋯,xnφ}；在Xφ内随机选择c个能源产业样本进行初始化；

步骤4：求解K(xiφ,xjφ)；

步骤5：求解各能源产业信息样本的ζjk;

步骤6：求解f′(xiφ)，更新粒子速度vi(t+1)与位置Yi(t+1);

按照适应度值调整P(t)与P′(t)，以生成下一代粒子，vi(t+1)与Yi(t+1)的更新公式如下：

式中，t是迭代次数；vi(t)、Yi(t)是粒子前一时刻的速度与位置；任意数是;P(t)、P′(t)分别是个体、全局极值。

步骤7：如果此时迭代次数T达到Tmax，那么结束迭代，在最后一代搜索出最佳解，获取得到P′的粒子，即初始聚类中心的集合，反之，令t=t+1，返回至步骤5;

步骤8：将更新隶属度函数ζjk作为一个粒子，对其进行更新处理[15];

步骤9：假设能源产业信息的聚类中心为gjφ，求解邻近两代ζjk之差E，如果E<ε，那么完成gjφ的优化，得到gj′h，反之，返回至步骤8。

1.3能源产业信息自动挖掘建模

利用PSO-KFCM算法自动挖掘能源产业信息的实现步骤如下：

步骤1：初始化群体规模n、Tmax、迭代结束阈值ς，设置c、δ、b，确定gj′h;

步骤2：利用PSO优化gj′h，建立能源产业信息自动挖掘的Jfφ[16]，并获取f′(xiφ)；

步骤3：更新ζjk，通过求解相应的Jfφ，再计算出群体内全部个体目标函数的均值，如果t=0，那么令t=t+1，转至步骤2，若t≥Tmax，那么继续步骤4，反之，令t=t+1，转至步骤2;

步骤4：通过融合改进的HubertΓ统计量与分离度建立KFCM的自动挖掘模型FΓ′(c,G,Xφ)，其公式如下：

2、实验分析

以某电网为实验对象，该电网共包含42个发电站，其中包含16个水力发电站，在该电网内随机选择有关16个水力发电站的10个数据集，这10个数据集的样本规模逐渐增大，由100 GB到1 000 GB，且数据集的样本维度各不相同，这10个数据集内的能源产业信息包含电网发电量信息、能源消耗信息、能源供应商信息与客户用电信息等。

利用该文模型自动挖掘10个数据集内在2020年有关16个水利发电站的能源消耗信息，自动挖掘结果如表1所示。

根据表1可知，该文模型可有效挖掘出所选择的10个数据集内有关能源产业信息中的能源消耗信息，且自动挖掘结果非常详细，实验证明该文模型可有效自动挖掘能源产业信息。

以数据集1为例，利用该文模型聚类处理该数据集内各类别能源产业信息的数据，该数据集内共包含三种类型的能源产业信息，分别是电网发电量信息、能源消耗信息与客户用电信息，聚类结果如图1所示。

表1能源消耗信息自动挖掘结果

图1聚类结果

根据图1可知，该数据集内共包含三个类别的数据，该文模型的聚类结果中共包含三个类别，与实际结果一致，说明该文模型具备较优的能源产业信息聚类效果。

利用调整兰德系数（Adjusted Rand Index,ARI）衡量该文模型的聚类效果，其取值区间为[-1,1]，其值越大，聚类效果越佳，测试结果如图2所示。

根据图2可知，在不同数据集规模时，该文模型的平均ARI值与最大ARI值均较高，具备较优的能源产业信息聚类效果。

测试该文模型在不同样本维度时，初始聚类中心优化前后的能源产业信息自动挖掘的完整性，测试结果如图3所示。

根据图3可知，样本维度越大，该文模型的初始聚类中心优化前后的完整性均有所降低，在不同样本维度时，优化后的完整性均显著高于优化前，且收敛速度快于优化前。实验证明，在不同样本维度时，初始聚类中心优化后的完整性值较高，即优化后的能源产业信息自动挖掘效果优于优化前。

图2 ARI测试结果

图3完整性测试结果

3、结论

电力企业的不断改革，使得能源产业信息呈爆炸式增长，同时由于能源产业信息规模庞大、维度不同，加大了能源产业信息自动挖掘难度，无法精准找到所需信息，为此建立基于模糊聚类分析的能源产业信息自动挖掘模型，提升信息自动挖掘效果，在不同能源产业信息规模与维度时，均可精准自动挖掘所需信息，为电力企业和用户提供更好的服务。

参考文献:

[1]黄铠,冯运凯,刘建武,等.基于大数据挖掘的油气田企业全产业链精准管理[J].物流技术,2020,39(2):102-108.

[2]艾崧溥,胡殿凯,张桐,等.能源互联网电力交易区块链中的关键技术[J].电力建设,2021,42(6):44-57.

[3]赵文琦,胡健,赵守国.中国能源产业的要素配置效率与产业高级化[J].数量经济技术经济研究,2020,37(12):146-162.

[4]郭立伟,叶峥.基于SEM的新能源产业集群形成影响因素实证研究[J].科技管理研究,2020,40(9):228-236.

[5]庞金香,隋萌萌.同态加密隐私保护数据高效智能挖掘仿真[J].计算机仿真,2019,36(6):316-319.

[6]米捷,刘道华.基于语义关联性特征融合的大数据挖掘方法[J].信阳师范学院学报(自然科学版),2019,32(1):141-145.

[7]许磊,王建新.基于模糊神经网络的异常网络数据挖掘算法[J].计算机科学,2019,46(4):73-76.

[8]张煜,陆亿红,黄德才.基于密度峰值的加权犹豫模糊聚类算法[J].计算机科学,2021,48(1):145-151.

[9]斯亚民.嵌入式模糊集数据库的FCM增量式聚类算法研究[J].中国电子科学研究院学报,2019,14(6):586-592.

[10]于建平,付继林,白塔娜,等.基于独有属性特征的情态与语境互动关系数据挖掘研究[J].燕山大学学报,2019,43(5):462-470.

[11]钱雪忠,姚琳燕.面向稀疏高维大数据的扩展增量模糊聚类算法[J].计算机工程,2019,45(6):75-81,88.