首页 > 论文范文 > 工程工业论文 > 电力工业论文 > 基于特征提取的电力客户服务大数据溯源模型

基于特征提取的电力客户服务大数据溯源模型

2024-09-23 98 上传者：管理员

摘要：为提高数据溯源算法的运行效率，基于特征提取方法提出电力客户服务大数据溯源模型。定义数据的基因组，查找数据库内的任意两个存在血缘关系的数据，以此建立数据染色体追溯模型；获取电力数据中的四类特征值，建立电力数据多次遗传的转移矩阵，基于特征提取构造电力大数据溯源路径；得出大数据溯源算法，构建电力客户服务大数据溯源模型。实验结果显示，特征提取算法在模型层数以及数据量相同时，溯源所需时间最短，算法运行速度最快。

关键词：
大数据
数据库
数据溯源算法
特征提取
电力客户服务
加入收藏

在现代社会中，网络已经普遍应用于各个领域，这直接导致各行各业的信息呈爆炸式增长，人们也开始在数据的演算与存储中领悟到了数据的重要性，大数据技术应运而生。很多数据在传递的过程中都会经历一系列的加工，这种加工很可能会导致数据变得面目全非，因此人们在使用数据信息时，通常会思考这些信息是否准确可靠。为获取最初始的数据，大数据的溯源技术成为了人们寻找数据的来源的主要途径。在现有的溯源技术研究中，为获取温室气体排放的最初数据，并对电网系统的吞吐量作出精确的分析，设计了一种基于区块链的电网温室气体排放数据溯源方法。在电量边际排放因子的辅助下，通过OM参数，得到气体排放数据的平均值，获取时间序列的溯源分数，该方法大幅度降低了数据溯源的吞吐量[1]。为更好地维护突发事件发生时的校园治安，对校内师生的运动轨迹进行溯源整理，通过无线网的接入与分析，构建了一个大数据系统，并在整体功能模块的设计中，引出了应用分布式存储和计算的数据仓库技术，实现了人群运动轨迹的精准溯源。该技术的溯源精度极高，但是由于没有有效的数据处理算法，溯源效率较差[2]。为解决溯源范围小、溯源精度低等问题，设计了一种基于Python爬虫技术的数据溯源方法。将应用程序整体划分为多个网格结构，在爬虫管理器的帮助下，完成对页面程序的锁定与追溯，通过过滤无关节点的方式，获取有效的密钥认证码[3]。但上述几种文献方法溯源运行效率较慢，溯源所需时间较长。结合以上文献内容，设计了一种基于特征提取的电力客户服务大数据溯源模型。

1、基于特征提取的电力客户服务大数据溯源模型

1.1数据染色体追溯模型建立

任何数据在传输过程中都有准确的路线，其所有的修改、传递、删减，都会记录在大数据的数据库内。这与生物的进化过程十分相似，从单细胞生物开始，生命在这亿万年的历史中不断修改自身的染色体数据，将生命转变为与以往完全不同的形式。但是在改变形态的同时，其自身的遗传数据却始终记录在基因深处[4]。本文在建立电力客户服务的数据模型时，从数据的染色体出发，通过数据遗传的方式，对其源头进行分析。此时可以定义数据的基因组为：

式中，GDi表示电力大数据的基因组，pi表示数据表现型的格式内容，gi表示数据基因型的格式，ci表示数据基因的集合与载体，μi表示数据遗传因子，δk表示基因在遗传过程中的适应度评分[5-6]。因此，当数据库内的两个数据存在血缘关系时，可以得到：

式中，Hmd表示目标数据的上一个溯源数据；Hn表示基因中与目标数据适应度最大的基因标识[7-8]。结合生物学中与遗传相关的数值特征，可以将这些数据的演化、交叉、变异等均表示出来，最终形成数据染色体的追溯模型。

图1 数据染色体追溯模型

如图1所示，数据染色体的追溯模型共分为三层，最上面的一层是数据层，其中P表示数据的表现型，主要为一些与现有追溯数据具备相同格式、字符的电力大数据。该层次主要用于存储电力客户服务的数据，并将其保存在数据库内。中间一层是经过染色体编译之前，未经转移的数据，也是数据呈现出表现层格式最主要的原因[9]。最下层是底层基因，是数据在遗传与变异之前的初始单位，它直接体现了电力客户服务大数据在溯源前端的表现格式。通过如图1所示的数据遗传与进化过程，可以得到数据染色体的追溯模型。

1.2基于特征提取的电力大数据溯源路径

上文有关于数据染色体的追溯模型，可以令现有的电力数据能够拥有向上追溯的途径，而数据的溯源路径指的是将所有追溯的途径记录下来，得到一条完整的溯源链条。使用特征提取方法，可以有效地提高大数据溯源路径建设的速度[10-11]。在特征提取中，可以有效表达电力客户服务特性的参数包括极差特征、标准差特征、离散系数特征、相关系数特征等四类。其计算公式分别为：

式中，F1表示电力数据的极差特征，f(t)表示t时刻电力数据的极差序列。该公式主要用于求取电力数据的最大与最小波动幅度。标准差特征F2的计算公式：

式中，fn表示n时刻时间序列的算术均值，Ni表示时间的长度[12]。该特征数据可以描述电力数据的离散程度，表示数据的波动性。离散系数特征的计算公式为：

式中，F3表示电力数据的离散系数特征，该参数是标准差与算术平均值的比值，其数值越大，证明电力数据的波动性越强。相关系数的计算公式为：

式中，F4表示在不同时段内电力数据的变化趋势，该参数越大，证明变化前后参数越稳定。结合以上四类电力数据的参数特征，可以得到一个电力数据在多次遗传后的转移矩阵：

式中，Hx,y表示第x次遗传后所得到的第y个遗传因子。以此类推，可以得到通过数据染色体的遗传因子计算的不确定性概率，该概率以最佳的适应度染色体为核心，通过不断迭代的数据，获取最新的子代染色体。在所有适应度平均值中，不确定性变化系数可以表示为：

式中，a和b分别表示决定电力大数据溯源深度与溯源倍数的两个匹配参数；fc表示变换后的适应度倍数；Pf it和Cf it分别表示数据溯源的适应度平均值和原适应度平均值；Pmax和Pmin则分别表示转换后数据基因的最大适应度与最小适应度。结合适应度，可以获得一个电力客户服务数据的上一代溯源数据，以此类推，即可得到电力大数据溯源路径。

1.3设计大数据溯源算法

上文通过单一数据追溯与染色体基因模型构造了一整条追溯路线，基于该路线，可以设计电力客户服务大数据的溯源算法，如图2所示。

图2 溯源追踪算法流程

在整体的工作流程中，以选择初始查询目标为起始点，解析出数据文件与上一代数据的偏移量。通过细粒度的溯源，得到输入与输出的文件关系，并记录输出元素的溯源参数：

式中，Nw(m)表示第m代迭代中输入文件与输出文件的溯源参数；δ1和δ2则分别表示溯源文件的偏移标识。在文件中通过返回值与map结果获取上一代溯源数据，并以此迭代，得到整体的溯源路径。在返回值与map结果中，通过构造返回文件名与map文件名，以解析和读取文件结构的方式，进行递归操作，以判断标识是否大于系统ID。当以上判定全部通过时，即可得到最终的溯源结果。

2、实验研究

2.1实验平台设计

为测试模型的性能，设计如下实验，在虚拟技术的支持下，平台内只有一台应用服务器作为主机，一台PC机作为响应溯源结果的客户端，剩余5台服务器均为虚拟机。在虚拟机中，其中1个是主节点，另外4个则是分节点，该虚拟机服务器集群的配置如表1所示。

表1 虚拟机服务器集群配置

通过系统内对大数据底层应用的扩展，可以新增以细粒度为核心的数据溯源功能。通过大数据分析平台，可以很轻松地以特征提取技术作为电力客户服务大数据的溯源结果。本实验对溯源时间进行测试，并与传统的几种大数据溯源方法进行对比，分析该方法对溯源效率的优化。在给定结果的同时，可以在相关的追踪项中，将所有输入值设置为一对多和多对一的关系，以此建立单层溯源模型与多层溯源模型。设计不同的实验环境，将虚拟机中只包含一个主节点与一个分节点的服务器集群作为单层模型，将虚拟机中包含一个主节点与多个分节点的服务器集群作为多层模型。其中，虚拟机分节点的数量可以代表模型的层数。

2.2单层模型溯源追踪性能测试

将加速比作为系统的主要参数，为测试实验中最合适的加速比，以单层模型的溯源追踪性能作为判断指标。规模固定的情况下，模型加速比计算公式为：

式中，Hk表示规模固定的模型加速比；Ti表示第i个计算节点的算法运行时间；Tp表示所有节点的整体运行时间，p表示模型内节点的数量。将1 M、10 M、100 MB的数据量作为变量，分别测试不同加速比下模型的溯源时间，得到的结果如图3所示。

图3 不同加速比下单层模型溯源速度

随着加速比的增加，四种大数据溯源模型的算法运行时间呈现出不断递减的趋势，直至达到一个临界值后，运行时间不再继续减少。分别以数据量和加速比作为变量，测试单层模型的算法运行时间。当数据量为100 MB时，特征提取技术在加速比为7时达到算法运行时间的最小值，区块链技术、WLAN大数据和Hive数据仓库技术、Python爬虫技术三种对比方法的最小运行时间则分别为6、5和7。当数据量为1 GB时，四种算法达到最小运行时间的加速比分别为7、6、6、6，当数据量为10 GB时，四种算法的加速比分别为8、6、7、7。在上述数据中，每个数据量下不同算法达到最小运行时间的加速比均不相同，其中加速比最大的是10 GB数据量是特征提取技术的大数据溯源模型。为保证实验中所得数据为最佳数据，需要使用最优数据，因此在下文的性能测试中，将三种多层模型的加速比均设定为8。

2.3多层模型溯源追踪性能测试

本实验测试了二层模型、三层模型、四层模型的大数据溯源运行时间。将数据量作为变量，分别测试其在100 MB-900 MB时的溯源时间，得到的结果如图4所示。

图4 多层模型溯源时间

在双层模型中，特征提取技术溯源900 MB数据需要24 ms，区块链技术需要33 ms,WLAN大数据和Hive数据仓库技术的运行时间为39 ms,Python爬虫技术的算法运行时间为30 ms。在三层模型中，本文方法溯源900 MB的数据需要27 ms，其他三种对比方法溯源900 MB数据分别需要41 ms、42 ms、43 ms。在四层模型中，本文方法的运行时间为52 ms、三种对比方法的运行时间则分别为86 ms、78 ms、71 ms。对比以上三组数据可知，随着数据量的增加，算法运行时间在不断增加，且模型层数越多，运行时间越长。在相同的数据量以及模型层数下，本文设计的特征提取算法运行时间为四种方法下的最小值。由此可见，本模型实现了优化目标。

3、结束语

依据特征提取算法，设计了一个电力客户服务大数据的溯源模型。通过单层模型溯源速度的测试，可以得到当前的最佳加速比，然后以最大加速比测试多层模型在不同数据量下的溯源时间。实验结果显示，模型层数与数据量均会导致溯源时间变长，且本溯源模型在算法运行时间方面均优于其他算法。

参考文献:

[1]强东盛,张立军,刘克成,等.基于区块链的电网温室气体排放数据溯源技术[J].河北电力技术,2022,41(2):14-18.

[2]徐悦伟,夏凌云.基于WLAN大数据和Hive数据仓库的高校人流溯源系统设计与实现[J].微型电脑应用,2021,37(11):71-73.

[3]王景.基于Python爬虫技术的虚假数据溯源与途中过滤分析[J].河南科技,2021,40(22):27-30.

[4]周炜,王光辉,施玉麟.区块链的电网调度模型数据溯源技术研究[J].自动化与仪器仪表,2022(1):63-67.

[5]赵丽梅.基于区块链理念的科学数据溯源研究[J].科技管理研究,2021,41(23):200-204.

[6]单超,邹云峰.基于水印与属性筛选的用电数据泄露溯源方法[J].计算机与现代化,2022(3):37-42.

[7]胡廷贤,黄杰亭.基于Hyperledger Fabric区块链的商品数据溯源方案[J].电脑知识与技术,2021,17(28):164-165.

[8]王晓庆,孙战伟,吴军红,等.基于数据要素流通视角的数据溯源研究进展[J].数据分析与知识发现,2022,6(1):43-54.

[9]王赛,邱强,王飞,等.基于二级链结构的跨域数据融合溯源框架设计[J].信息安全研究,2021,7(8):728-738.