摘要:为提高数据溯源算法的运行效率,基于特征提取方法提出电力客户服务大数据溯源模型。定义数据的基因组,查找数据库内的任意两个存在血缘关系的数据,以此建立数据染色体追溯模型;获取电力数据中的四类特征值,建立电力数据多次遗传的转移矩阵,基于特征提取构造电力大数据溯源路径;得出大数据溯源算法,构建电力客户服务大数据溯源模型。实验结果显示,特征提取算法在模型层数以及数据量相同时,溯源所需时间最短,算法运行速度最快。
加入收藏
在现代社会中,网络已经普遍应用于各个领域,这直接导致各行各业的信息呈爆炸式增长,人们也开始在数据的演算与存储中领悟到了数据的重要性,大数据技术应运而生。很多数据在传递的过程中都会经历一系列的加工,这种加工很可能会导致数据变得面目全非,因此人们在使用数据信息时,通常会思考这些信息是否准确可靠。为获取最初始的数据,大数据的溯源技术成为了人们寻找数据的来源的主要途径。在现有的溯源技术研究中,为获取温室气体排放的最初数据,并对电网系统的吞吐量作出精确的分析,设计了一种基于区块链的电网温室气体排放数据溯源方法。在电量边际排放因子的辅助下,通过OM参数,得到气体排放数据的平均值,获取时间序列的溯源分数,该方法大幅度降低了数据溯源的吞吐量[1]。为更好地维护突发事件发生时的校园治安,对校内师生的运动轨迹进行溯源整理,通过无线网的接入与分析,构建了一个大数据系统,并在整体功能模块的设计中,引出了应用分布式存储和计算的数据仓库技术,实现了人群运动轨迹的精准溯源。该技术的溯源精度极高,但是由于没有有效的数据处理算法,溯源效率较差[2]。为解决溯源范围小、溯源精度低等问题,设计了一种基于Python爬虫技术的数据溯源方法。将应用程序整体划分为多个网格结构,在爬虫管理器的帮助下,完成对页面程序的锁定与追溯,通过过滤无关节点的方式,获取有效的密钥认证码[3]。但上述几种文献方法溯源运行效率较慢,溯源所需时间较长。结合以上文献内容,设计了一种基于特征提取的电力客户服务大数据溯源模型。
1、基于特征提取的电力客户服务大数据溯源模型
1.1数据染色体追溯模型建立
任何数据在传输过程中都有准确的路线,其所有的修改、传递、删减,都会记录在大数据的数据库内。这与生物的进化过程十分相似,从单细胞生物开始,生命在这亿万年的历史中不断修改自身的染色体数据,将生命转变为与以往完全不同的形式。但是在改变形态的同时,其自身的遗传数据却始终记录在基因深处[4]。本文在建立电力客户服务的数据模型时,从数据的染色体出发,通过数据遗传的方式,对其源头进行分析。此时可以定义数据的基因组为:
式中,GDi表示电力大数据的基因组,pi表示数据表现型的格式内容,gi表示数据基因型的格式,ci表示数据基因的集合与载体,μi表示数据遗传因子,δk表示基因在遗传过程中的适应度评分[5-6]。因此,当数据库内的两个数据存在血缘关系时,可以得到:
式中,Hmd表示目标数据的上一个溯源数据;Hn表示基因中与目标数据适应度最大的基因标识[7-8]。结合生物学中与遗传相关的数值特征,可以将这些数据的演化、交叉、变异等均表示出来,最终形成数据染色体的追溯模型。
图1 数据染色体追溯模型
如图1所示,数据染色体的追溯模型共分为三层,最上面的一层是数据层,其中P表示数据的表现型,主要为一些与现有追溯数据具备相同格式、字符的电力大数据。该层次主要用于存储电力客户服务的数据,并将其保存在数据库内。中间一层是经过染色体编译之前,未经转移的数据,也是数据呈现出表现层格式最主要的原因[9]。最下层是底层基因,是数据在遗传与变异之前的初始单位,它直接体现了电力客户服务大数据在溯源前端的表现格式。通过如图1所示的数据遗传与进化过程,可以得到数据染色体的追溯模型。
1.2基于特征提取的电力大数据溯源路径
上文有关于数据染色体的追溯模型,可以令现有的电力数据能够拥有向上追溯的途径,而数据的溯源路径指的是将所有追溯的途径记录下来,得到一条完整的溯源链条。使用特征提取方法,可以有效地提高大数据溯源路径建设的速度[10-11]。在特征提取中,可以有效表达电力客户服务特性的参数包括极差特征、标准差特征、离散系数特征、相关系数特征等四类。其计算公式分别为:
式中,F1表示电力数据的极差特征,f(t)表示t时刻电力数据的极差序列。该公式主要用于求取电力数据的最大与最小波动幅度。标准差特征F2的计算公式:
式中,fn表示n时刻时间序列的算术均值,Ni表示时间的长度[12]。该特征数据可以描述电力数据的离散程度,表示数据的波动性。离散系数特征的计算公式为:
式中,F3表示电力数据的离散系数特征,该参数是标准差与算术平均值的比值,其数值越大,证明电力数据的波动性越强。相关系数的计算公式为:
式中,F4表示在不同时段内电力数据的变化趋势,该参数越大,证明变化前后参数越稳定。结合以上四类电力数据的参数特征,可以得到一个电力数据在多次遗传后的转移矩阵:
式中,Hx,y表示第x次遗传后所得到的第y个遗传因子。以此类推,可以得到通过数据染色体的遗传因子计算的不确定性概率,该概率以最佳的适应度染色体为核心,通过不断迭代的数据,获取最新的子代染色体。在所有适应度平均值中,不确定性变化系数可以表示为:
式中,a和b分别表示决定电力大数据溯源深度与溯源倍数的两个匹配参数;fc表示变换后的适应度倍数;Pf it和Cf it分别表示数据溯源的适应度平均值和原适应度平均值;Pmax和Pmin则分别表示转换后数据基因的最大适应度与最小适应度。结合适应度,可以获得一个电力客户服务数据的上一代溯源数据,以此类推,即可得到电力大数据溯源路径。
1.3设计大数据溯源算法
上文通过单一数据追溯与染色体基因模型构造了一整条追溯路线,基于该路线,可以设计电力客户服务大数据的溯源算法,如图2所示。
图2 溯源追踪算法流程
在整体的工作流程中,以选择初始查询目标为起始点,解析出数据文件与上一代数据的偏移量。通过细粒度的溯源,得到输入与输出的文件关系,并记录输出元素的溯源参数:
式中,Nw(m)表示第m代迭代中输入文件与输出文件的溯源参数;δ1和δ2则分别表示溯源文件的偏移标识。在文件中通过返回值与map结果获取上一代溯源数据,并以此迭代,得到整体的溯源路径。在返回值与map结果中,通过构造返回文件名与map文件名,以解析和读取文件结构的方式,进行递归操作,以判断标识是否大于系统ID。当以上判定全部通过时,即可得到最终的溯源结果。
2、实验研究
2.1实验平台设计
为测试模型的性能,设计如下实验,在虚拟技术的支持下,平台内只有一台应用服务器作为主机,一台PC机作为响应溯源结果的客户端,剩余5台服务器均为虚拟机。在虚拟机中,其中1个是主节点,另外4个则是分节点,该虚拟机服务器集群的配置如表1所示。
表1 虚拟机服务器集群配置
通过系统内对大数据底层应用的扩展,可以新增以细粒度为核心的数据溯源功能。通过大数据分析平台,可以很轻松地以特征提取技术作为电力客户服务大数据的溯源结果。本实验对溯源时间进行测试,并与传统的几种大数据溯源方法进行对比,分析该方法对溯源效率的优化。在给定结果的同时,可以在相关的追踪项中,将所有输入值设置为一对多和多对一的关系,以此建立单层溯源模型与多层溯源模型。设计不同的实验环境,将虚拟机中只包含一个主节点与一个分节点的服务器集群作为单层模型,将虚拟机中包含一个主节点与多个分节点的服务器集群作为多层模型。其中,虚拟机分节点的数量可以代表模型的层数。
2.2单层模型溯源追踪性能测试
将加速比作为系统的主要参数,为测试实验中最合适的加速比,以单层模型的溯源追踪性能作为判断指标。规模固定的情况下,模型加速比计算公式为:
式中,Hk表示规模固定的模型加速比;Ti表示第i个计算节点的算法运行时间;Tp表示所有节点的整体运行时间,p表示模型内节点的数量。将1 M、10 M、100 MB的数据量作为变量,分别测试不同加速比下模型的溯源时间,得到的结果如图3所示。
图3 不同加速比下单层模型溯源速度
随着加速比的增加,四种大数据溯源模型的算法运行时间呈现出不断递减的趋势,直至达到一个临界值后,运行时间不再继续减少。分别以数据量和加速比作为变量,测试单层模型的算法运行时间。当数据量为100 MB时,特征提取技术在加速比为7时达到算法运行时间的最小值,区块链技术、WLAN大数据和Hive数据仓库技术、Python爬虫技术三种对比方法的最小运行时间则分别为6、5和7。当数据量为1 GB时,四种算法达到最小运行时间的加速比分别为7、6、6、6,当数据量为10 GB时,四种算法的加速比分别为8、6、7、7。在上述数据中,每个数据量下不同算法达到最小运行时间的加速比均不相同,其中加速比最大的是10 GB数据量是特征提取技术的大数据溯源模型。为保证实验中所得数据为最佳数据,需要使用最优数据,因此在下文的性能测试中,将三种多层模型的加速比均设定为8。
2.3多层模型溯源追踪性能测试
本实验测试了二层模型、三层模型、四层模型的大数据溯源运行时间。将数据量作为变量,分别测试其在100 MB-900 MB时的溯源时间,得到的结果如图4所示。
图4 多层模型溯源时间
在双层模型中,特征提取技术溯源900 MB数据需要24 ms,区块链技术需要33 ms,WLAN大数据和Hive数据仓库技术的运行时间为39 ms,Python爬虫技术的算法运行时间为30 ms。在三层模型中,本文方法溯源900 MB的数据需要27 ms,其他三种对比方法溯源900 MB数据分别需要41 ms、42 ms、43 ms。在四层模型中,本文方法的运行时间为52 ms、三种对比方法的运行时间则分别为86 ms、78 ms、71 ms。对比以上三组数据可知,随着数据量的增加,算法运行时间在不断增加,且模型层数越多,运行时间越长。在相同的数据量以及模型层数下,本文设计的特征提取算法运行时间为四种方法下的最小值。由此可见,本模型实现了优化目标。
3、结束语
依据特征提取算法,设计了一个电力客户服务大数据的溯源模型。通过单层模型溯源速度的测试,可以得到当前的最佳加速比,然后以最大加速比测试多层模型在不同数据量下的溯源时间。实验结果显示,模型层数与数据量均会导致溯源时间变长,且本溯源模型在算法运行时间方面均优于其他算法。
参考文献:
[1]强东盛,张立军,刘克成,等.基于区块链的电网温室气体排放数据溯源技术[J].河北电力技术,2022,41(2):14-18.
[2]徐悦伟,夏凌云.基于WLAN大数据和Hive数据仓库的高校人流溯源系统设计与实现[J].微型电脑应用,2021,37(11):71-73.
[3]王景.基于Python爬虫技术的虚假数据溯源与途中过滤分析[J].河南科技,2021,40(22):27-30.
[4]周炜,王光辉,施玉麟.区块链的电网调度模型数据溯源技术研究[J].自动化与仪器仪表,2022(1):63-67.
[5]赵丽梅.基于区块链理念的科学数据溯源研究[J].科技管理研究,2021,41(23):200-204.
[6]单超,邹云峰.基于水印与属性筛选的用电数据泄露溯源方法[J].计算机与现代化,2022(3):37-42.
[7]胡廷贤,黄杰亭.基于Hyperledger Fabric区块链的商品数据溯源方案[J].电脑知识与技术,2021,17(28):164-165.
[8]王晓庆,孙战伟,吴军红,等.基于数据要素流通视角的数据溯源研究进展[J].数据分析与知识发现,2022,6(1):43-54.
[9]王赛,邱强,王飞,等.基于二级链结构的跨域数据融合溯源框架设计[J].信息安全研究,2021,7(8):728-738.
[10]王俊彦,卢金星,吴强,等.基于人工智能和大数据的食品溯源数据采集真实性识别方法探讨[J].信息系统工程,2021(7):23-26.
[11]朝乐门,李昊璟,冀佳钰.大数据环境下数据对象的可溯源性保障方法研究[J].情报资料工作,2020,41(2):83-92.
[12]周育忠,陶秀杰,张自锋,等.基于信息熵模型的电力主题词库特征自动提取[J].自动化技术与应用,2021,40(8):90-94.
文章来源:于亮,钟宏伟,李海涛,等.基于特征提取的电力客户服务大数据溯源模型[J].自动化技术与应用,2024,43(09):101-104.
分享:
风能、潮汐能、太阳能等可再生能源存在间歇性供应和地域分布不均衡等特点,对自然条件的依赖性很强。因此,开发新型储能材料成为解决这一问题的核心。超级电容器因其具备高功率密度、超快的充放电速率及较长的循环使用寿命成为储能领域中非常重要的一员[1,2]。
2025-09-07根据《智能光伏产业创新发展行动计划(2021—2025年)》的指导,各相关部门推动智能制造与运维融合,国家数据局的成立也为数据资源整合提供了支持[1]。基于大数据、人工智能和物联网技术构建的智慧运维平台,实现了设备实时监测、预测性维护及资源优化调度,显著提升了运维效率,降低了成本并增强了安全性。
2025-09-07新能源是人类传统能源外,以新技术诞生的地热能、太阳能、风能等能源种类,具有可再生、资源丰富的优点,对人类、环境负面影响小,却存在开发难度大问题。而在新能源开发中,采取电气自动化技术,利用先进控制算法,能够提高新能源转换能源效率,如太阳能发电优化阵列倾斜方向。
2025-09-04双进双出钢球磨煤机作为发电厂广泛应用的制粉设备,具有生产效率高、能耗低、不受异物影响等特点。但是,由于煤种特性因素的变化、电网用电需求不确定,煤质与电厂负荷发生变化,要求磨煤机能够及时响应,提高燃烧效率,减少CO2与NOx排放。因此,在发电厂双进双出钢球磨煤机运行中,应结合实际情况,对其进行优化调整,从而推动发电厂可持续发展。
2025-09-04随着电力系统规模的不断扩大和技术的日益复杂,高压输电线路的二次回路面临的故障类型也日趋多样化。目前,专家学者大多对二次回路的继电保护回路、电流电压互感器回路的故障进行了研究,但是基于系统安全的高压输电线路二次回路全方位、全过程的故障研究分析相对缺乏。
2025-09-04电力载波通信(PowerLineCommunication,PLC)作为一种利用电力线进行数据传输的技术,凭借成本低廉和覆盖范围广泛的优势,在众多领域得到了广泛应用[1]。特别是在智能电网、家庭自动化和工业控制等领域,PLC技术能通过现有的电力基础设施实现高效的数据传输[2]。
2025-09-04文献[6]提出基于随机规划的多能源系统日前调度模型,考虑了风电光伏的不确定性,但未纳入光热储能的长期调节能力。文献[7]利用模型预测控制优化光热-光伏联合系统,侧重短期功率平滑,难以适应周计划的时间跨度。文献[8]构建了“风光火储”多目标优化模型,但将储能视为独立单元,忽略了光热发电与储能的一体化特性。
2025-09-04高电压设备通常是在恶劣环境和长期高负荷状态下运行,在运维检修工作不到位情况下,极易造成较大经济损失和人身安全隐患。尤其是绝缘老化现象,导致绝缘层无法对高压电起到良好绝缘效果,出现绝缘击穿、设备故障、通电故障及放电故障等多种问题。
2025-08-29根据国家电网公司抽检试验数据,熔断器主要缺陷集中于上导电片连接处、熔管螺纹接合部等关键部位。材质缺陷与温升异常直接相关,导电部件材质不达标会造成接触电阻增大,正常负荷电流下产生过热现象,长期运行将加速触头氧化和弹性元件老化。
2025-08-29数字化浪潮中,智能工厂建设是企业高质量发展的必然选择。开展基于MES系统的配电盘智能化生产线建设,是提升公司配电盘产能、品质和核心竞争力的重要路径。智能工厂MES模块与产线对接投入生产后,预计投入5年后产量由现有的1200面增至2500面以上,产能得到有效提升。
2025-08-29人气:5461
人气:4119
人气:3172
人气:2653
人气:1966
我要评论
期刊名称:自动化与仪器仪表
期刊人气:632
主管单位:重庆市科学技术协会
主办单位:重庆市自动化与仪器仪表学会,重庆工业自动化仪表研究所
出版地方:重庆
专业分类:科技
国际刊号:1001-9227
国内刊号:50-1066/TP
邮发代号:78-8
创刊时间:1981年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:3.316
影响因子:0.281
影响因子:0.629
影响因子:0.000
影响因子:0.000
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!