摘要:为了找到适用于中成药数据集进行药物重定位的链路预测模型,本文将六个经典的链路预测模型TransE、RotatE、Dismult、ComplEx、InteractE和DeepE分别应用于中成药数据集。通过学习实体和关系的嵌入向量,深入研究了这些模型的性能,并使用链路预测评估指标对这六个链路预测模型进行了评估,比较了它们之间的性能差异。实验结果表明,与其它五个链路预测模型相比,DeepE模型在中成药数据集中的MRR、Hit@1和Hit@10指标分别提高了3.7%-20.1%、4.8%-24.7%和0.8%-11%,因此更适用于药物重定位任务。
加入收藏
1、引言
传统研发药物的方法存在成本高、风险大、周期长的问题。为了应对这些挑战,Ashburn和Thor首次提出了药物重定位技术。基于链路预测的药物重定位是一种广泛应用的计算药物重新定位策略。它主要通过学习合适的知识图谱嵌入模型,对“疾病”实体和“药物”实体之间的潜在关系进行预测,以确定已有的药物是否可以用于治疗新的疾病[1]。
链路预测在药物重定位中的应用可以分为两类:一类是通过研究节点相似性和网络结构来预测不同类型节点之间的潜在关系和相互作用,从而获得候选药物[2,3,4]。另一类是通过链路预测学习实体和关系的表达,并将其应用到特定数据集的药物重定位中。Zeng X等人建立了一个包含1500万条边的综合性知识图谱[5],其中包括4种实体以及实体之间的39种关系。通过利用RotatE在一个信息量丰富的低维向量空间中学习实体和关系的表示[6],成功预测了治疗COVID-19的候选治疗药物。刘禹琪结合ConvE和注意力模块,提出基于注意力模块的知识图谱链路预测模型(SK-ConvE)[7,8],用于对中医名方知识图谱进行模型训练。对疾新冠肺炎”研究的重定位结果表明,基于链路预测模型的药物重定位能够有效提供候选药物。李宗贤整合了现有的6大生物医学数据库的知识图谱DRKG[9],利用5种经典的链路预测模型对帕金森病进行药物重定位,并最终选择了ComplEx模型[10]。Zhang X等人为药物重定位提供了一种创新思路[11]。他们整合了医学文献的知识和本地医学知识库,构建了一个融合的知识图谱。然后,通过对比5种链路预测模型来预测帕金森病的候选药物,研究者最终发现ConvTransE在药物再利用方面表现最佳[12]。
虽然,上述研究在特定的数据集里都取得了较好的效果,但很少关注基于神经网络模型的链路预测方法在药物重定位中的研究。因此本文利用基于平移距离模型(TransE、RotatE)、基于语义匹配模型(Dismult、ComplEx)和基于神经网络模型(InteractE、DeepE)获取中成药数据集实体和关系的低维表示[6,10,13,14,15,16],并进行药物重定位。同时使用链路预测评估指标进行评估。
2、实验对比学习
2.1数据及方法
2.1.1数据来源
实验数据集采用跟周忠眉等研究中新药方剂一样的数据集[17]。它来源于中成药医药局。中成药医药局词表里每个条例如表1所示,包含每种药物名称,组成成分、功效和疾病。
表1 中成药医药局词表示例
2.1.2数据预处理
本文定义了药物、功效、组成、疾病四类实体,如表2所示。
表2 实体类别
中成药医药局词表中每个药方包含文本数据,需要对文本部分进行处理并将其转化成相关的三元组。该过程包括以下步骤:首先,使用Excel和Python中的openpyxl库对药物的组成成分、药物的功效、药物治疗的疾病进行分词,并去除无关信息。其次,参照《中华人民共和国药典》对药物和药剂名称进行统一的命名处理。最后,使用Python编写相关代码,从中成药数据集中提取出三元组。通过这一过程,成功提取出医药局词表中共有17045个实体和6个关系。具体的三元组表示如表3所示。
表3 三元组示例
2.1.3实验方法
链路预测是一种用于预测知识图谱(Knowledge Graph,KG)中缺失事实的方法。KG中包含大量的事实三元组(h,r,t),其中h和t分别代表是头实体和尾实体,r代表的是实体间的关系。链路预测就是根据已知的实体和关系,预测知识图谱中的缺失连接或新的关系。在该任务中,模型学习一个评分函数φ(ℎ,r,t),用于判断三元组的真伪。采用六种经典的链路预测模型进行药物重定位,分别是:TransE、RotatE、Dismult、ComplEx、InteractE、DeepE。其中,TransE和RotatE属于平移距离模型,Dismult和ComplEx属于语义匹配模型,而InteractE和DeepE则属于神经网络模型。
平移距离模型将关系看作头实体向量平移到尾实体向量的过程。这种方法通过计算两个实体在向量空间中的距离来衡量它们之间的相关性。
TransE模型是平移距离模型的经典代表。该模型将实体h和t通过平移的向量r连接,以预测它们之间的误差,可表示为ℎ+r≈t。TransE的评分函数定义为:
该评分函数代表ℎ与t的L1距离。尽管TransE模型在大规模知识图谱上表现出色,但它难以对知识库中的复杂关系进行准确建模。
RotatE模型将实体和关系映射到复数空间,并将关系定义为复数空间中头实体h到尾实体r的旋转。对于每个三元组(h,r,t),RotatE模型期望,模长定义为,RotatE的评分函数定义为:
其中代表Hadamard积,||*||代表L1范数。RotatE模型能够建模和推断对称/反对称、反转和组合的关系,在处理复杂关系时表达能力更强。
语义匹配模型(Dismult、ComplEx)通过匹配实体和关系的潜在的语义来评估事实三元组匹配的准确性[18]。
DistMult模型是一个具有代表性的例子。它减少了对关系矩阵的约束,将关系矩阵Mr改为对角矩阵(Diagonal Matrix)。其评分函数定义为:
其中,diag(r)表示与关系对应的双线性变换矩阵。该模型可以大幅度减少模型参数量,提高计算效率,但是丧失了对非对称关系的建模能力。
为了解决非对称关系的问题,ComplEx模型在DistMult模型的基础上引入复数空间来学习知识表示。它通过使用Hermitian点积进行h、r、t三者的共轭式合成,来处理非对称关系和可逆关系,同时保留点积的计算优势,使空间和时间复杂度成线性。ComplEx的评分函数定义为:
其中,是的共轭,Re表示复数值的实部。
神经网络模型(InteractE、DeepE)通过多层神经网络来学习实体和关系的深层次语义关联,通过提取隐藏特征来学习具有丰富表现力的嵌入表达。
InteractE模型通过卷积层和全连接层建模输入实体和关系间的交互。对于每个三元组,InteractE首先将头实体向量h和关系向量r拼接成一个二维矩阵,并引入棋盘格的矩阵,增加头部实体h和关系r之间的交互。随后,该矩阵经过卷积层和全连接层处理,将获得的特征映射张量向量化并投射到k维向量空间中。最后通过点积操作将输出与尾部嵌入合并,得到该事实的得分。InteractE的评分函数定义为:
其中,|代表拼接操作,∅1代表重塑矩阵,⊛代表深度循环卷积,vec(·)表示向量拼接,w表示卷积核,W表示可学习的权重矩阵,f和g分别代表ReLU函数和sigmoid函数。
DeepE模型受到Resnet模型启发,使得模型在学习深层特征的同时不丢失浅层特征。该模型将头部实体h和关系r进行拼接,并作为DeepE模型f的输入。f由多个构建块堆叠而成,用于预测尾部实体t。每个构建块由一个线性函数和一个非线性函数进行加法得到,可以表示为x+w2(σ(w1x))。对于尾部实体t,该模型构建映射网络g(·),将t投影到与h和r输出接近的空间。g(·)由多个Resnet构建块组成。每个构建块可以表示为σ(x+w2(σ(w1x))),w1、w2是权重矩阵,σ(·)是非线性函数。DeepE模型通过点积操作将f(·)的输出与g(·)的输出合并,从而获得该事实的得分。DeepE的评分函数定义为:
其中,代表拼接操作。
以上模型的实验步骤可总结为以下伪代码:
2.2评价指标
(1) MR是平均排名,具体的计算公式如下:
Q表示三元组,|Q|表示三元组集合的个数,ranki表示第i个三元组链接预测的排名,MR值越小越好。
(2) MRR是平均倒数排名。它与MR相反,MRR值越大越好,具体计算公式如下:
(3) Hit@N指的是在链接预测中排名小于等于N的三元组的平均占比,具体计算公式如下:
Π(·)是indicator函数(若条件真则函数值为1,否则为0)。一般地,取n为1、3或者10,Hit@N指标越大越好。
2.3实验设置
实验采用六种经典的链路预测模型进行药物重定位,并按照80%、10%、10%的比例划分了中成药数据集的三元组,分别构成训练集(118314个)、验证集(14790个)和测试集(14788个)。
利用网格搜索各个模型的超参数如下:TransE、Dismult、ComplEx的批大小Batch size=512,实体/关系嵌入维度hidden_dim=1000;RotatE的批大小Batch size=512,实体/关系嵌入维度hidden_dim=500;TransE、RotatE、Dismult、ComplEx的固定边界gamma依次为{6.0,9.0,200,200};学习率lr依次为{0.00005,0.00005,0.002,0.002};对抗性采样温度adversarial_temperature依次为{1.0,1.0,0.5,0.5}。对于InteractE学习率lr=0.001,批大小Batch size=16;负采样率neg_num=100;卷积滤波器数量设置为Num filters=32;卷积核ker_sz=3,其余参数为源代码默认参数。对于DeepE模型,实体/关系嵌入维度embedding_dim=500;批大小Batch size=1000;学习率lr=0.003;L2正则化min_lr=5e-5;DeepE构建块数量num_source_layer=2;Resnet构建块数量num_inner_layers=2;其余参数参照源代码WN18RR数据集参数。
每个模型的训练参数如上文所述,当MRR在验证集上连续10个历元没有提高时,训练将终止。当在验证集上取得最佳MRR时,选择最佳模型。报告了5次不同随机初始化的平均结果。最大训练迭代为1000次。其中InteractE模型大约需要500次迭代完成训练,TransE、RotatE、Dismult和ComplEx大约需要800次迭代完成训练。
六种经典的链路预测模型中,TransE、RotatE、Dismult和ComplEx采用文献[6]的代码进行实验。InteractE和DeepE,分别采用文献[15]和文献[16]中的代码进行实验。
2.4实验结果及分析
对中成药数据集中的性能进行了六种链路预测模型的实验比较。在MR指标方面,DeepE模型取得最优结果为161,InteractE模型紧随其后,得分为200。对于MRR指标,DeepE模型取得最优结果为0.84,Dismult模型和InteractE模型在相应指标上次之,结果为0.803。对于H@1指标,DeepE模型取得了最优结果0.824,InteractE模型次之,结果为0.776。对于H@3和H@10指标,DeepE模型均取得了最优结果,Dismult模型次之。表4详细列出了六种模型的评估结果。其中,粗线代表最高得分,下划线代表次高得分。
表4 多模型上中成药数据集对比结果
通过对比不同的链路预测模型在中成药数据集中的结果,可以得出以下结论。首先,平移距离模型(TransE、RotatE)的结果普遍低于语义匹配模型(Dismult、complEx)的结果。TransE模型是一种经典的链路预测模型,但不能对一对多、多对一、多对多的关系进行建模,因此在中成药数据集上的表现一般。RotatE模型引入旋转操作,能够更灵活地捕捉实体之间的关系,在处理复杂关系时更具有表达能力,在中成药数据集上的表现相比TransE模型有显著提高,但仍然低于语义匹配模型。其次,语义匹配模型通过匹配实体和关系的潜在语义向量来衡量匹配的准确性[18],可以更好地学习到三元组的信息并处理复杂关系。Dismult模型在语义匹配中表现最佳,因为它适用于对称关系的建模。然而,ComplEx模型是一种基于复数表示的链路预测模型,用于处理非对称关系,因此效果低于Dismult模型。总体而言,基于神经网络的模型整体效果优于基于平移距离和语义匹配的模型。InteractE模型通过特征重塑和循环卷积的方法增强了头实体和尾实体的交互能力,从而提高了预测性能。然而,它忽略了浅层知识的流失,导致整体结果低于DeepE模型。综上所述,DeepE模型在中成药数据集上的实验效果最佳。
3、总结与展望
本文在经典的6个链路预测模型上对中成药数据集进行了对比分析,得出DeepE模型在中成药数据集上的实验效果最佳。尽管DeepE模型在进行深层网络学习的同时也兼顾了浅层网络的学习,但在药物重定位应用中还是忽略了以下两个问题:
(1)语义相似性:DeepE模型主要集中在捕获同一三元组中的h、r和t之间的语义关系,却忽略了不同三元组中相关实体和实体关系之间的联系。对于同一种疾病,存在不同的治疗药物,因此该疾病对应的实体应具有相似的语义。捕获这些实体或实体对的语义相似性有助于提高药物重定位结果。
(2)可解释性:DeepE模型只能获得复杂的模型参数和高度拟合的结果,无法对模型的预测原因进行解释。在医疗相关的预测中,能够解释模型的预测结果在一定程度上有助于药物研发人员做出更准确的判断,从而缩短药物研发的时间。
因此,未来需要深入研究DeepE模型在药物重定位中语义相似性和可解释性问题,例如:可以通过使用对比学习来拉近同一种疾病,不同治疗药物的语义关系、利用SHAP (SHapley Additive exPlanations)技术进行解释提高模型的准确率和可解释性[19]。此外,中医药蕴含的知识对中医学领域有重要的价值,这些知识不仅有助于揭示药物的内在机制,同时也为药物研发者提供了更加精准定位候选药物的机会。
参考文献:
[1]卢艳峰,杨思瀚,莫鸿仪,等.基于知识图谱嵌入的阿尔茨海默病药物重定位研究.中国药科大学学报,2023,54(03):344-354
[7]刘禹琪.中医名方知识图谱构建与链路预测模型的研究及应用[硕士学位论文].东北师范大学,长春,2021
[9]李宗贤.基于知识图谱的帕金森病药物重定位.信息技术与信息化,2022(07):28-32
[17]周忠眉,林宝德,肖青.古代方剂与新药方剂高频药组配情况分析.漳州师范学院学报(自然科学版),2004,17(1):19-21
[18]彭宴辉.基于嵌入技术的知识图谱补全和实体对齐方法研究[硕士学位论文].南京理工大学,南京,2020
基金资助:福建省自然科学基金(No.2022J01398)资助;
文章来源:翁慧敏.链路预测方法在药物重定位中的应用研究[J].福建电脑,2024,40(03):39-43.
分享:
通过将聚甲基丙烯酸甲酯(polymethylmethacrylate,PMMA)骨水泥注入塌陷的椎体内,可恢复椎体的正常高度和刚度,防止椎体进一步塌陷和畸形,缓解患者疼痛。然而,骨水泥渗漏仍是PVP和PKP治疗椎体压缩性骨折,尤其是骨壁破损型椎体骨折的常见并发症之一[3],可能导致脊髓、神经根受压及热损伤等严重不良后果[4-5]。
2025-08-19肺动脉高压(pulmonaryhypertension,PH)是一种慢性进行性疾病,定义为静息状态下经右心导管测量发现平均肺动脉压(meanpulmonaryarterypressure,mPAP)>20mmHg,常以PAP增高和肺血管阻力(pulmonaryvascularresistance,PVR)进行性升高为特征,并会引起肺血管床减少、肺血管重塑、肺血管收缩和原位血栓形成,导致PAP持续升高。
2025-08-14AF的病理生理学机制十分复杂,涉及多种因素之间的动态相互作用,包括心房重构、炎症、自主神经功能失衡等[2]。心房纤维化常见于AF、心力衰竭、心脏瓣膜疾病、高血压等心血管疾病[3],其中与AF关系最为密切。心房纤维化是AF的重要病理基础,而AF是心房纤维化的临床表现之一[4]。
2025-07-16维立西呱是2021年1月获得美国食品药品监督管理局(FDA)批准上市的一种口服可溶性鸟苷酸环化酶(sGC)调节剂[1],该药是首个用于治疗心力衰竭的sGC直接刺激剂,通过恢复NO-sGC-cGMP信号通路实现多个靶器官保护,改善心肌和血管功能,预防甚至逆转左室肥厚和纤维化,减缓心室重构,通过舒张全身和肺血管减轻心室后负荷[2]。
2025-06-16有研究表明,头孢哌酮舒巴坦对流感嗜血杆菌、大肠埃希菌、不动杆菌的抗菌活性为单独使用头孢哌酮的4倍[1]。头孢哌酮舒巴坦的不良反应主要为凝血功能障碍及血小板计数(PLT)减少,主要机制为抑制肠道内维生素K依赖的凝血因子的形成,从而导致其缺乏,引起凝血功能指标的异常,严重可导致消化道出血、血尿及皮下、齿龈出血等。
2025-06-13本文基于中国药典无菌检查法[7],系统探讨了特殊剂型药品无菌检查方法学的技术瓶颈与解决策略。重点从关键参数优化、特殊剂型特异性方法学构建及快速微生物检测技术的应用三个维度展开论述,以期为特殊剂型药品无菌检查方法的建立及质量控制提供参考。
2025-05-23头孢菌素是临床上最为常用的抗菌药物,对绝大多数感染菌敏感,应用范围广泛。该药物属于有毒性药物,尽管毒性相对较低,但因应用人数较多,导致药品不良反应发生率较高。药品不良反应的发生显著影响了患者的临床治疗,且会增加治疗成本,还可能引发其他治疗风险或疾病,基于此,临床认为针对头孢菌素需应用合理方案降低不良反应发生率。
2025-05-15随着头孢菌素类药物的广泛应用,因其导致的不良反应越来越明显,这类药物深受医学界的重视。该类药物常见不良反应有神经系统反应、过敏反应、血液系统反应和胃肠道反应等,甚至对患者生命造成严重威胁[2]。诸多不良反应类型中,过敏反应较为常见,具有荨麻疹、皮疹及瘙痒等症状,严重时可能导致过敏性休克。
2025-04-28谵妄是重症监护病房(ICU)机械通气老年患者常见的并发症,发病率较高,且对患者预后产生严重影响[1]。有研究发现,谵妄延长了患者ICU停留时间和住院时间,与患者病死率的增加密切相关[2]。因此,及时诊断和治疗对于降低并发症发生率、改善患者预后具有重要意义。
2025-04-11小儿豉翘清热颗粒对儿童风热感冒治疗作用明显,其中富含许多中药成分,包括清热解毒、消痈散疖的连翘,解表、解毒、宣郁的淡豆豉,清利头目、疏肝解郁的薄荷,发表散风、透疹消疮的荆芥,泻火除烦、清热利湿的炒栀子等,不仅可疏风解表,还可清热导滞。
2025-03-21人气:13842
人气:13605
人气:12789
人气:11921
人气:11858
我要评论
期刊名称:中华中医药学刊
期刊人气:10470
主管单位:中华人民共和国国家中医药管理局
主办单位:中华中医药学会,辽宁中医药大学
出版地方:辽宁
专业分类:医学
国际刊号:1673-7717
国内刊号:21-1546/R
邮发代号:8-182
创刊时间:1982年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:1.881
影响因子:1.074
影响因子:1.483
影响因子:0.495
影响因子:0.498
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!