91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

链路预测方法在药物重定位中的应用研究

  2024-03-21    52  上传者:管理员

摘要:为了找到适用于中成药数据集进行药物重定位的链路预测模型,本文将六个经典的链路预测模型TransE、RotatE、Dismult、ComplEx、InteractE和DeepE分别应用于中成药数据集。通过学习实体和关系的嵌入向量,深入研究了这些模型的性能,并使用链路预测评估指标对这六个链路预测模型进行了评估,比较了它们之间的性能差异。实验结果表明,与其它五个链路预测模型相比,DeepE模型在中成药数据集中的MRR、Hit@1和Hit@10指标分别提高了3.7%-20.1%、4.8%-24.7%和0.8%-11%,因此更适用于药物重定位任务。

  • 关键词:
  • SK-ConvE
  • 关系表达
  • 知识图谱
  • 药物重定位
  • 链路预测
  • 加入收藏

1、引言


传统研发药物的方法存在成本高、风险大、周期长的问题。为了应对这些挑战,Ashburn和Thor首次提出了药物重定位技术。基于链路预测的药物重定位是一种广泛应用的计算药物重新定位策略。它主要通过学习合适的知识图谱嵌入模型,对“疾病”实体和“药物”实体之间的潜在关系进行预测,以确定已有的药物是否可以用于治疗新的疾病[1]。

链路预测在药物重定位中的应用可以分为两类:一类是通过研究节点相似性和网络结构来预测不同类型节点之间的潜在关系和相互作用,从而获得候选药物[2,3,4]。另一类是通过链路预测学习实体和关系的表达,并将其应用到特定数据集的药物重定位中。Zeng X等人建立了一个包含1500万条边的综合性知识图谱[5],其中包括4种实体以及实体之间的39种关系。通过利用RotatE在一个信息量丰富的低维向量空间中学习实体和关系的表示[6],成功预测了治疗COVID-19的候选治疗药物。刘禹琪结合ConvE和注意力模块,提出基于注意力模块的知识图谱链路预测模型(SK-ConvE)[7,8],用于对中医名方知识图谱进行模型训练。对疾新冠肺炎”研究的重定位结果表明,基于链路预测模型的药物重定位能够有效提供候选药物。李宗贤整合了现有的6大生物医学数据库的知识图谱DRKG[9],利用5种经典的链路预测模型对帕金森病进行药物重定位,并最终选择了ComplEx模型[10]。Zhang X等人为药物重定位提供了一种创新思路[11]。他们整合了医学文献的知识和本地医学知识库,构建了一个融合的知识图谱。然后,通过对比5种链路预测模型来预测帕金森病的候选药物,研究者最终发现ConvTransE在药物再利用方面表现最佳[12]。

虽然,上述研究在特定的数据集里都取得了较好的效果,但很少关注基于神经网络模型的链路预测方法在药物重定位中的研究。因此本文利用基于平移距离模型(TransE、RotatE)、基于语义匹配模型(Dismult、ComplEx)和基于神经网络模型(InteractE、DeepE)获取中成药数据集实体和关系的低维表示[6,10,13,14,15,16],并进行药物重定位。同时使用链路预测评估指标进行评估。


2、实验对比学习


2.1数据及方法

2.1.1数据来源

实验数据集采用跟周忠眉等研究中新药方剂一样的数据集[17]。它来源于中成药医药局。中成药医药局词表里每个条例如表1所示,包含每种药物名称,组成成分、功效和疾病。  

表1 中成药医药局词表示例 

2.1.2数据预处理

本文定义了药物、功效、组成、疾病四类实体,如表2所示。 

表2 实体类别 

中成药医药局词表中每个药方包含文本数据,需要对文本部分进行处理并将其转化成相关的三元组。该过程包括以下步骤:首先,使用Excel和Python中的openpyxl库对药物的组成成分、药物的功效、药物治疗的疾病进行分词,并去除无关信息。其次,参照《中华人民共和国药典》对药物和药剂名称进行统一的命名处理。最后,使用Python编写相关代码,从中成药数据集中提取出三元组。通过这一过程,成功提取出医药局词表中共有17045个实体和6个关系。具体的三元组表示如表3所示。  

表3 三元组示例  

2.1.3实验方法

链路预测是一种用于预测知识图谱(Knowledge Graph,KG)中缺失事实的方法。KG中包含大量的事实三元组(h,r,t),其中h和t分别代表是头实体和尾实体,r代表的是实体间的关系。链路预测就是根据已知的实体和关系,预测知识图谱中的缺失连接或新的关系。在该任务中,模型学习一个评分函数φ(ℎ,r,t),用于判断三元组的真伪。采用六种经典的链路预测模型进行药物重定位,分别是:TransE、RotatE、Dismult、ComplEx、InteractE、DeepE。其中,TransE和RotatE属于平移距离模型,Dismult和ComplEx属于语义匹配模型,而InteractE和DeepE则属于神经网络模型。

平移距离模型将关系看作头实体向量平移到尾实体向量的过程。这种方法通过计算两个实体在向量空间中的距离来衡量它们之间的相关性。

TransE模型是平移距离模型的经典代表。该模型将实体h和t通过平移的向量r连接,以预测它们之间的误差,可表示为ℎ+r≈t。TransE的评分函数定义为:

该评分函数代表ℎ与t的L1距离。尽管TransE模型在大规模知识图谱上表现出色,但它难以对知识库中的复杂关系进行准确建模。

RotatE模型将实体和关系映射到复数空间,并将关系定义为复数空间中头实体h到尾实体r的旋转。对于每个三元组(h,r,t),RotatE模型期望,模长定义为,RotatE的评分函数定义为:

其中代表Hadamard积,||*||代表L1范数。RotatE模型能够建模和推断对称/反对称、反转和组合的关系,在处理复杂关系时表达能力更强。

语义匹配模型(Dismult、ComplEx)通过匹配实体和关系的潜在的语义来评估事实三元组匹配的准确性[18]。

DistMult模型是一个具有代表性的例子。它减少了对关系矩阵的约束,将关系矩阵Mr改为对角矩阵(Diagonal Matrix)。其评分函数定义为:

其中,diag(r)表示与关系对应的双线性变换矩阵。该模型可以大幅度减少模型参数量,提高计算效率,但是丧失了对非对称关系的建模能力。

为了解决非对称关系的问题,ComplEx模型在DistMult模型的基础上引入复数空间来学习知识表示。它通过使用Hermitian点积进行h、r、t三者的共轭式合成,来处理非对称关系和可逆关系,同时保留点积的计算优势,使空间和时间复杂度成线性。ComplEx的评分函数定义为:

其中,是的共轭,Re表示复数值的实部。

神经网络模型(InteractE、DeepE)通过多层神经网络来学习实体和关系的深层次语义关联,通过提取隐藏特征来学习具有丰富表现力的嵌入表达。

InteractE模型通过卷积层和全连接层建模输入实体和关系间的交互。对于每个三元组,InteractE首先将头实体向量h和关系向量r拼接成一个二维矩阵,并引入棋盘格的矩阵,增加头部实体h和关系r之间的交互。随后,该矩阵经过卷积层和全连接层处理,将获得的特征映射张量向量化并投射到k维向量空间中。最后通过点积操作将输出与尾部嵌入合并,得到该事实的得分。InteractE的评分函数定义为:

其中,|代表拼接操作,∅1代表重塑矩阵,⊛代表深度循环卷积,vec(·)表示向量拼接,w表示卷积核,W表示可学习的权重矩阵,f和g分别代表ReLU函数和sigmoid函数。

DeepE模型受到Resnet模型启发,使得模型在学习深层特征的同时不丢失浅层特征。该模型将头部实体h和关系r进行拼接,并作为DeepE模型f的输入。f由多个构建块堆叠而成,用于预测尾部实体t。每个构建块由一个线性函数和一个非线性函数进行加法得到,可以表示为x+w2(σ(w1x))。对于尾部实体t,该模型构建映射网络g(·),将t投影到与h和r输出接近的空间。g(·)由多个Resnet构建块组成。每个构建块可以表示为σ(x+w2(σ(w1x))),w1、w2是权重矩阵,σ(·)是非线性函数。DeepE模型通过点积操作将f(·)的输出与g(·)的输出合并,从而获得该事实的得分。DeepE的评分函数定义为:

其中,代表拼接操作。

以上模型的实验步骤可总结为以下伪代码:

2.2评价指标

(1) MR是平均排名,具体的计算公式如下:

Q表示三元组,|Q|表示三元组集合的个数,ranki表示第i个三元组链接预测的排名,MR值越小越好。

(2) MRR是平均倒数排名。它与MR相反,MRR值越大越好,具体计算公式如下:

(3) Hit@N指的是在链接预测中排名小于等于N的三元组的平均占比,具体计算公式如下:

Π(·)是indicator函数(若条件真则函数值为1,否则为0)。一般地,取n为1、3或者10,Hit@N指标越大越好。

2.3实验设置

实验采用六种经典的链路预测模型进行药物重定位,并按照80%、10%、10%的比例划分了中成药数据集的三元组,分别构成训练集(118314个)、验证集(14790个)和测试集(14788个)。

利用网格搜索各个模型的超参数如下:TransE、Dismult、ComplEx的批大小Batch size=512,实体/关系嵌入维度hidden_dim=1000;RotatE的批大小Batch size=512,实体/关系嵌入维度hidden_dim=500;TransE、RotatE、Dismult、ComplEx的固定边界gamma依次为{6.0,9.0,200,200};学习率lr依次为{0.00005,0.00005,0.002,0.002};对抗性采样温度adversarial_temperature依次为{1.0,1.0,0.5,0.5}。对于InteractE学习率lr=0.001,批大小Batch size=16;负采样率neg_num=100;卷积滤波器数量设置为Num filters=32;卷积核ker_sz=3,其余参数为源代码默认参数。对于DeepE模型,实体/关系嵌入维度embedding_dim=500;批大小Batch size=1000;学习率lr=0.003;L2正则化min_lr=5e-5;DeepE构建块数量num_source_layer=2;Resnet构建块数量num_inner_layers=2;其余参数参照源代码WN18RR数据集参数。

每个模型的训练参数如上文所述,当MRR在验证集上连续10个历元没有提高时,训练将终止。当在验证集上取得最佳MRR时,选择最佳模型。报告了5次不同随机初始化的平均结果。最大训练迭代为1000次。其中InteractE模型大约需要500次迭代完成训练,TransE、RotatE、Dismult和ComplEx大约需要800次迭代完成训练。

六种经典的链路预测模型中,TransE、RotatE、Dismult和ComplEx采用文献[6]的代码进行实验。InteractE和DeepE,分别采用文献[15]和文献[16]中的代码进行实验。

2.4实验结果及分析

对中成药数据集中的性能进行了六种链路预测模型的实验比较。在MR指标方面,DeepE模型取得最优结果为161,InteractE模型紧随其后,得分为200。对于MRR指标,DeepE模型取得最优结果为0.84,Dismult模型和InteractE模型在相应指标上次之,结果为0.803。对于H@1指标,DeepE模型取得了最优结果0.824,InteractE模型次之,结果为0.776。对于H@3和H@10指标,DeepE模型均取得了最优结果,Dismult模型次之。表4详细列出了六种模型的评估结果。其中,粗线代表最高得分,下划线代表次高得分。 

表4 多模型上中成药数据集对比结果  

通过对比不同的链路预测模型在中成药数据集中的结果,可以得出以下结论。首先,平移距离模型(TransE、RotatE)的结果普遍低于语义匹配模型(Dismult、complEx)的结果。TransE模型是一种经典的链路预测模型,但不能对一对多、多对一、多对多的关系进行建模,因此在中成药数据集上的表现一般。RotatE模型引入旋转操作,能够更灵活地捕捉实体之间的关系,在处理复杂关系时更具有表达能力,在中成药数据集上的表现相比TransE模型有显著提高,但仍然低于语义匹配模型。其次,语义匹配模型通过匹配实体和关系的潜在语义向量来衡量匹配的准确性[18],可以更好地学习到三元组的信息并处理复杂关系。Dismult模型在语义匹配中表现最佳,因为它适用于对称关系的建模。然而,ComplEx模型是一种基于复数表示的链路预测模型,用于处理非对称关系,因此效果低于Dismult模型。总体而言,基于神经网络的模型整体效果优于基于平移距离和语义匹配的模型。InteractE模型通过特征重塑和循环卷积的方法增强了头实体和尾实体的交互能力,从而提高了预测性能。然而,它忽略了浅层知识的流失,导致整体结果低于DeepE模型。综上所述,DeepE模型在中成药数据集上的实验效果最佳。


3、总结与展望


本文在经典的6个链路预测模型上对中成药数据集进行了对比分析,得出DeepE模型在中成药数据集上的实验效果最佳。尽管DeepE模型在进行深层网络学习的同时也兼顾了浅层网络的学习,但在药物重定位应用中还是忽略了以下两个问题:

(1)语义相似性:DeepE模型主要集中在捕获同一三元组中的h、r和t之间的语义关系,却忽略了不同三元组中相关实体和实体关系之间的联系。对于同一种疾病,存在不同的治疗药物,因此该疾病对应的实体应具有相似的语义。捕获这些实体或实体对的语义相似性有助于提高药物重定位结果。

(2)可解释性:DeepE模型只能获得复杂的模型参数和高度拟合的结果,无法对模型的预测原因进行解释。在医疗相关的预测中,能够解释模型的预测结果在一定程度上有助于药物研发人员做出更准确的判断,从而缩短药物研发的时间。

因此,未来需要深入研究DeepE模型在药物重定位中语义相似性和可解释性问题,例如:可以通过使用对比学习来拉近同一种疾病,不同治疗药物的语义关系、利用SHAP (SHapley Additive exPlanations)技术进行解释提高模型的准确率和可解释性[19]。此外,中医药蕴含的知识对中医学领域有重要的价值,这些知识不仅有助于揭示药物的内在机制,同时也为药物研发者提供了更加精准定位候选药物的机会。


参考文献:

[1]卢艳峰,杨思瀚,莫鸿仪,等.基于知识图谱嵌入的阿尔茨海默病药物重定位研究.中国药科大学学报,2023,54(03):344-354

[7]刘禹琪.中医名方知识图谱构建与链路预测模型的研究及应用[硕士学位论文].东北师范大学,长春,2021

[9]李宗贤.基于知识图谱的帕金森病药物重定位.信息技术与信息化,2022(07):28-32

[17]周忠眉,林宝德,肖青.古代方剂与新药方剂高频药组配情况分析.漳州师范学院学报(自然科学版),2004,17(1):19-21

[18]彭宴辉.基于嵌入技术的知识图谱补全和实体对齐方法研究[硕士学位论文].南京理工大学,南京,2020


基金资助:福建省自然科学基金(No.2022J01398)资助;


文章来源:翁慧敏.链路预测方法在药物重定位中的应用研究[J].福建电脑,2024,40(03):39-43.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

中华中医药学刊

期刊名称:中华中医药学刊

期刊人气:10470

期刊详情

主管单位:中华人民共和国国家中医药管理局

主办单位:中华中医药学会,辽宁中医药大学

出版地方:辽宁

专业分类:医学

国际刊号:1673-7717

国内刊号:21-1546/R

邮发代号:8-182

创刊时间:1982年

发行周期:月刊

期刊开本:大16开

见刊时间:1年以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定