91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于知识图谱与人工智能的电力数据分析算法研究

  2023-11-21    71  上传者:管理员

摘要:为了提升电力营销系统问答机器人的智能化水平,文中基于知识图谱技术对相关智能数据分析的方法进行了研究。通过分析隐含语义在知识图谱中的稠密化向量表示方法后,针对传统方法在复杂图谱下多实体间映射关系不准确的问题,设计了一种改进的三分支并行神经网络(TBPNN)。该网络针对三元组中的头实体、尾实体及约束关系建立了结构相同的三个神经网络,且每个神经网络均包含交互层、非线性层和输出层。为了验证该网络在营销知识图谱上的数据分析效果,使用部分人工构建的知识图谱进行了仿真实验。结果表明,相较于传统的TransE算法,TBPNN网络在MeanRank上降低了39.9%,在Hit@10指标上则提升了41.5%。而在一对一、一对多与多对多的三元组分类实验上,精度分别提升了3.3%、39.0%及54.7%。

  • 关键词:
  • TransE算法
  • 三分支并行神经网络
  • 数字化
  • 电力服务
  • 知识图谱
  • 加入收藏

随着电力企业数字化转型的推进,当前电力公司已普遍依靠移动网络系统提供智能客服功能,并由智能机器人进行客户疑问解答。但智能机器人存在复杂专业问题难以识别、无法帮助客户进行业务办理、与客户在线实时互动能力不足等问题,从而影响了客户线上办理业务的体验及电力公司线上业务的进一步拓展。目前,系统后台所使用智能客服机器人的服务能力有限,且知识更新仍需软件提供商现场维护,费时费力。因此,亟需建设实时、互动化与智能化的线上服务渠道[1,2,3,4,5,6]。

随着人工智能技术(Artificial Intelligence,AI)的发展,传统的离散、非结构化知识体系已逐步被高组织性的语义网络所取代。建立电力营销领域的知识图谱(Knowledge Graph),是将复杂多源的专业业务知识结构化的过程,也是高效查找复杂关联信息、提升电力数据分析效率及整体服务效能的关键路径[7,8,9,10,11]。基于知识图谱可随时完成新营销业务流程的学习和嵌入,从而不断推进“互联网+”营销服务的深入。该文在电力营销知识图谱的基础上,对数据分析的方法展开了研究,并介绍了传统知识图谱的构建与表示方法。同时还基于神经网络(Neural Network,NN)对知识图谱的分布式表示方法进行了改进,进而提升了传统方法在复杂电力营销语义下映射的准确性。


1、理论基础


1.1 知识图谱的分布式表示

知识图谱是一种由节点、边组成的大规模语义网络,且其边表征了节点间的语义关联[12,13,14]。知识的获取、融合、计算与推理是知识图谱中的关键技术。而这些技术的实现基础则是知识图谱的分布式表示,其对于图谱的构建、管理效率均具有决定性的影响[15]。通过分布式表示,可将节点、关系间的词向量映射至低维空间,并高效存储知识图谱的结构及语义特性。

对于电力营销系统,基于原有基础数据构建知识图谱的过程如图1所示。

在图中流程的基础上,为实现电力营销知识图谱的构建,需研究图谱的分布式表示技术。在计算机中知识图谱的基本存储单元是三元组,其可表示为:

其中,h为头实体,t为尾实体,r则为h到t的约束关系。E、R、S分别为知识图谱网络的实体、关系与三元组集合。根据如图2所示的基于翻译的知识图谱分布式表示方法TransE(Translating Embedding),在h和t之间经过关系r可达到距离最近,即:

图1 电力营销服务知识图谱构建   

图2 TransE方法示意图   

记f为度量h、t实体间的分数函数:

其中,Ln为范数。通过优化得到基于式(3)的铰链损失(Hinge Loss)准则Ψ为:

式中,λ为间隔常数,[·]+表示取正函数,S′为负元组,其获取方式如下:

根据h、r、t三者映射空间的不同,在TransE的基础上又发展出TransD、TransH等系列算法。这类基于翻译思想的Trans系列分布式表示方法,凭借其参数少、训练高效的优势均取得了良好的应用效果。但此类方法更适用于一对一的线性约束,而对大规模知识图谱下的复杂三元组关系无法准确表述。

1.2 基于TBPN的分布式表示

为表述知识图谱的多约束特性,考虑到实体、关系之间并无本质差异,文中从三元组的交互特性出发[16],设计了如图3所示的三分支并行神经网络(Three Branch Parallel Neural Network,TBPNN)。该网络内的分支结构相似,且每个分支均由交互层、非线性层及输出层组成。

图3 TBPNN网络结构  

记W为网络的传播权重矩阵,b为神经元传播的偏置项,则网络在交互层、非线性层、输出层的传播函数分别可表示为:

TBPNN网络在训练时,采用误差反向传播(Back Propagation,BP)算法。由于三分支网络的输入对于正样本具有相似度,而对负样本的相似度则较低。因此,传统网络的损失函数会在正负样本间震荡。为了克服该影响,引入了比例Sigmoid函数,则有:

其中,α为动态调整因子,其可调节Sigmoid函数的取值范围。根据式(9),能够得到铰链损失函数为:

其中,γ是正负样本间隔,且为S(T′)的负样本集。由随机抽取的实体或关系h′、r′、t′对原有三元组的实体或关系进行替换得到:

为保证式(10)的函数在梯度下降过程中是平滑的,该文使用FLOYD算法对其进行平滑近似,则有:

在训练过程中,式(12)的渐进上界如下:


2、方法实现


2.1 实验设计

实体和关系之间通过上文中的算法训练完成分布式表示,并得到低维嵌入向量。为评估该向量是否能准确表征知识图谱的结构和语义特性,文中通过链接预测(Link Prediction)和三元组分类(Triple Classification)进行判别。

1)链接预测

链接预测模拟了知识图谱的知识推理过程,即通过(h,r,t)中的两个元素预测第三个元素。具体可表示为:

以h的预测为例,首先,将h替换为E中的所有实体,构造与E规模相同的候选集。然后,使用上文所述的函数进行评价,进而可得到h所对应的三元组在该候选集中的排名。同时,t的预测也与此一致。记候选集的规模为N,则使用以下两个指标对链接预测结果进行评估,则有:

其中,rank(i)表示被预测的三元组在所有生成候选集中的排名,n表示rank(i)<10的个数。根据二者的定义,MeanRank越大,Hit@10越小,且表示链接预测的效果也越优。

2)三元组分类

该分类实验用于模拟给定的三元组是否符合知识图谱的语义约束,从而避免知识图谱的错误扩增。在实验前需提前设定阈值δ,用于区分正确与错误的三元组。当传播函数的输出值大于δ时,将该样本评判为正确三元组,并记正确样本的个数为T;而当输出值小于δ时,则将该样本评判为错误组,且记错误样本的个数为F。使用分类精度P作为评价指标,则有:

由于在已构建的电力营销知识图谱中仅包含正样本三元组,因此为了开展实验,需要人工构造一定比例的负样本三元组。文中通过将正样本三元组中的实体随机替换为其他实体的方式,来构造等量的负样本三元组。构建完成后,所使用的知识图谱相关统计信息如表1所示。  

表1 知识图谱统计信息  

仿真实验所使用的计算机软硬件环境,如表2所示。而实验中的TBPNN网络的相关参数,如表3所示。  

表2 算法仿真软硬件环境   

表3 TBPN网络结构参数  

2.2 系统测试结果

根据TBPNN的网络结构,交互层、非线性层的数量决定着模型训练过程中的参数个数,并会影响模型的泛化性能。因此,需结合电力营销数据库的规模,合理设计网络结构。

对于交互层而言,若网络需要取消该层,则仅需将其权重传递矩阵参数设置为0即可;而针对非线性层,使用与第一个交互层相同结构的非线性层便可进行扩增。此外,为了评估模型的性能,该文还使用了经典的TransE、TransH及TransD作为对照组。链接预测的实验结果,如表4所示。 

表4 链接预测实验结果 

表4中,TBPNN_i表示该网络具有i个非线性层,no_inter表示无交互层。由表可知,在无交互层时,算法的MeanRank和Hit@10与Trans系列算法结果较为接近。而当引入交互层后,算法的性能指标有了显著改善。此外分支网络非线性层数的增加会造成模型中的参数增长,并导致模型训练出现过拟合现象。根据表4的测试结果可知,选取单层非线性层结构具有最优的预测效果。此外,相较于TransE算法,该文算法在MeanRank上降低了39.9%,而在Hit@10指标上则提升了41.5%。

在进行三元组分类时,根据电力营销数据库的组成,将三元组按照映射关系进行分类。当一个头实体对应两个及以上实体时,则将其记作一对多实体。各种映射关系在数据集中的占比如表5所示。  

表5 三元组映射关系分类占比  

不同算法的三元组分类实验精度对比结果,如表6所示。

表6 三元组分类实验精度统计 

从表中可看出,在无交互层时,模型在一对多、多对多关系分类上的精度明显下降。结合表4中的实验结果可以证明,交互层主要作用于三元组中不通过元素间复杂关系的映射。此外,从TBPNN_i的不同实验结果看,随着实体与关系间的映射关系逐渐复杂,多参数构成的多非线性层TBPNN网络的性能与单网络的分类性能也在不断接近。由此说明,对于较为复杂的元素关系分布式表示,可通过增加非线性层的数量来提升网络拟合能力。整体来看,所提TBPNN算法相较于Trans系列方法在三元组的分类精度上具有明显的提升。同时与TransE算法相比,该文算法在对一对一关系、一对多关系、多对多关系的三元组分类上,精度分别提升了3.3%、39.0%、54.7%。


3、结束语


在电力营销系统的知识图谱中,该文针对传统分布式表示在复杂图谱下多语义实体间约束力不足的问题进行了改进,提出了一种三分支并行神经网络算法。仿真分析结果表明,所提出的TBPNN方法较TransE等算法在知识图谱的分布式表示效果上具有较大的提升。随着未来电力营销知识图谱的迭代,该文算法将有效提升电力营销系统的数据分析效率与智能化水平。


参考文献:

[1]林之岸,罗欣,魏骁雄,等.基于双层聚类和模糊等级评定的客户侧供电服务评价[J].电力系统保护与控制,2021,49(23):62-71.

[2]林磊.基于BLSTM网络的智能客服语音识别系统研究[J].微型电脑应用,2021,37(9):63-65.

[4]俞学豪,赵子岩,马应龙,等.基于BR和GBDT的电力信息通信客服系统多标签文本分类[J].电力系统自动化,2021,45(11):144-151.

[5]郑蓉蓉,闫珺路,李莉敏,等.基于电力ICT业务场景的智能客服创新研究与实践[J].电力大数据,2019,22(1):71-76.

[6]刘振华.数字化技术在电网客服域的探索与应用[J].微型电脑应用,2021,37(3):147-150.

[7]谭刚,陈聿,彭云竹.融合领域特征知识图谱的电网客服问答系统[J].计算机工程与应用,2020,56(3):232-239.

[10]吴小刚,许士锦,陈兴望,等.基于知识图谱的电网智能调度辅助决策系统设计[J].信息技术,2021(12):60-65.

[11]刘津,杜宁,徐菁,等.知识图谱在电力领域的应用与研究[J].电力信息与通信技术,2020,18(1):60-66.

[12]叶子,陈小平,张波,等.融合预训练模型的中文知识图谱问题生成方法[J].小型微型计算机系统,2021,42(2):246-250.

[13]周航,刘学军,张伯君.面向多语义关系的知识图谱表示学习方法[J].计算机工程与设计,2021,42(1):220-225.

[14]王鑫,陈蔚雪,杨雅君,等.知识图谱划分算法研究综述[J].计算机学报,2021,44(1):235-260.

[15]李彭伟.海量知识图谱分布式管理与查询技术[J].指挥信息系统与技术,2021,12(2):75-80,93.

[16]李忠文,丁烨,花忠云,等.结合三元组重要性的知识图谱补全模型[J].计算机科学,2020,47(11):231-236.


基金资助:国网公司科技项目(JL71-15-042);


文章来源:薛晓茹,徐道磊,路宇等.基于知识图谱与人工智能的电力数据分析算法研究[J].电子设计工程,2023,31(22):139-143.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

电力建设

期刊名称:电力建设

期刊人气:2931

期刊详情

主管单位:国家电网公司

主办单位:国网北京经济技术研究院,中国电力工程顾问集团公司,中国电力科学研究院

出版地方:北京

专业分类:电力

国际刊号:1000-7229

国内刊号:11-2583/TM

邮发代号:82-679

创刊时间:1958年

发行周期:月刊

期刊开本:大16开

见刊时间:一年半以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定