摘要:蛋白质与适配体间的相互作用广泛存在于生物体,且在各种生命活动中发挥着重要作用。核酸适配体(简称适配体)是与靶标具有高亲和力的、长度大约在3080 nt的核苷酸链,其与蛋白质的特异性结合对于疾病的靶向治疗研究具有重要意义。随着大数据和人工智能的发展,基于生物信息学的蛋白质-适配体相互作用预测及适配体筛选的计算方法的实现能有效解决传统实验方法的周期长、费用高等问题。本文就蛋白质-适配体相互作用预测实现方法和以蛋白质为靶标的适配体的筛选方法作一综述,以期为临床选择适合的预测方法提供参考。
适配体是一类较短的核酸序列,其具有特异性和高亲和力的分子结合能力[1]。尽管蛋白质与适配体之间的相互作用具有重要的研究意义和应用前景,但其相关研究工作也面临着诸多难题。传统的实验方法过程复杂、实验周期长、费用高,随着数据量的增多,其弊端更加突出,需采用高效的计算方法来进行蛋白质-适配体相互作用的研究工作。随着高通量测序和计算机技术的成熟与发展,机器学习和深度学习在生物信息学领域得到了广泛的应用[2,3,4]。本文对蛋白质-适配体相互作用预测方法以及以蛋白质为靶标的适配体筛选方法作一综述。
1、蛋白质-适配体相互作用预测实现方法
蛋白质-适配体相互作用预测方法的基本框架是通过将蛋白质与适配体的序列转化为可用于计算的特征值,通过机器学习模型对特征空间进行训练得到预测模型。特征与机器学习方法的选取和优化是影响模型预测性能的重要因素,根据待解决问题的特点提取序列的关键特征并选择合适的机器学习方法至关重要。通常情况下,特征空间主要来源于对蛋白质与适配体的序列信息的计算,特征空间的维度也是影响预测性能的重要因素。此类问题是一种二分类的问题,常用的机器学习分类方法包含决策树、朴素贝叶斯、随机森林以及支持向量机等。由于朴素贝叶斯是在各属性相互独立的假设上进行的分类,因此对于特征之间相关性较大的问题其分类效果较差。决策树由于算法较为简单,可对较大的数据集实现快速的分类,但是对于缺失数据处理困难且易产生过拟合问题。目前,随机森林与支持向量机是生物信息学应用较为广泛的机器学习方法。
1.1随机森林
随机森林(random forest)[5]是在决策树基础上进行改进的一种集成方法,是一种典型的Bagging算法。该算法是将多个决策树集成一个预测精度更高的分类器,通过样本的随机性与属性的随机性以及少数服从多数的投票机制有效解决了决策树的过拟合问题。随机森林方法在蛋白质-适配体相互作用预测中实现了很好的预测效果。Li BQ等[6]提出了一种基于伪氨基酸的随机森林的方法,首次实现了使用计算方法预测蛋白质-适配体的相互作用,其研究通过收集Aptamer Base[7]数据库中的蛋白质-适配体条目构建数据集,提取了核苷酸组成、氨基酸组成和伪氨基酸组成(PseAAC)[8]这三种特征作为模型的输入,为减少特征冗余度和降低计算度,通过最大相关最小冗余方法(mRMR)和增量特征选择(IFS)方法对290维的特征进行最佳特征的筛选后得到了220维的最优特征组合,该预测模型在独立测试集上的预测准确率为0.774,敏感性为0.483,特异性为0.871。张丽娜[9]提出一种基于多源特征提取策略和集成方法的蛋白质-适配体相互作用预测方法,该方法使用了基于随机森林的集成方法,通过对三个随机森林分类器的训练得到三个预测模型,并将三个模型的预测结果的平均值作为最终的结果。该研究在Li BQ等[6]构建的数据集的基础上对训练集进行数据重构,其基于多源特征提取策略,提取了伪K元组核苷酸组成(K分别为2和3)、离散余弦变换、二元位置特异性打分矩阵和无序区域信息[10]这些重要特征作为模型的输入,并通过Relief-増量特征选择方法对特征进行筛选后得到了304维的最优特征空间,该预测模型在独立测试集上的预测准确率为0.719,敏感性为0.738,特异性为0.713。
这两种基于随机森林的预测方法实现了蛋白质-适配体相互作用的有效预测。基于伪氨基酸的随机森林的方法因其较小的特征维度和使用单一的随机森林分类器,其模型的计算复杂度较低,但是由于数据集的不平衡,造成了大小样本的预测准确率的严重失衡。此外,该方法的特征提取较为单一,蛋白质与适配体的结合涉及到多方面的性质,忽略这些关键特征造成特征向量不能有效表征蛋白质与适配体而影响预测效果。而基于多源特征提取策略和集成方法的预测方法因提取了更多的特征以及使用了基于3个随机森林分类器的集成方法,显著地均衡大小样本的预测准确率,但是也增加了预测模型的计算复杂度。此外,将3个平衡的训练子集用于3个机器学习分类器,单个分类器的负样本训练数据较少使得对训练样本的学习不足造成了负样本预测准确率的降低。
1.2支持向量机
支持向量机(support vector machines,SVM)[11,12]是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。线性可分即存在一个超平面可以将样本根据类别一分为二,而线性不可分即找不到这个超平面导致支持向量机无法实现分类。核函数的引入使得支持向量机也可以解决高维非线性数据的分类问题。支持向量机具有很好的泛化能力,能有效解决二分类问题,但是不适用于大规模样本和多分类的问题。Yang Q等[13]提出一种基于自动编码[14,15]特征提取和集成方法的蛋白质-适配体相互作用预测方法,使用了基于支持向量机的集成方法,将自动编码特征、核苷酸组成、伪核苷酸组成(PseKNC)和一般序列相关的伪三核苷酸组成(SC-PseTNC-General)作为特征输入,通过梯度下降树(GBDT)[16]对676维的特征进行筛选后,得到的最优特征空间维数为616。该方法也在Li BQ等[6]构建的数据集基础上采用了数据重构的方法,将训练集分为3个平衡的训练子集并分别用于3个支持向量机模型的训练,将3个训练模型最终集成为一个预测精度更高的模型。在独立测试集上该模型的预测准确率为0.757,其特异性和敏感性分别为0.745和0.793。基于三个支持向量机的集成预测方法,相较于其他两种方法实现了更好的预测效果,但是此方法高维度的特征造成高复杂度的计算而影响预测性能;且将自动编码特征作为蛋白质表示的唯一特征,虽然能有效的提取蛋白质的序列信息,但是也导致了蛋白质的结构特征和理化性质等被忽略。
基于随机森林与支持向量机的蛋白质-适配体预测方法能有效地实现预测功能,实现的三种方法[5,9,13]在相同的独立测试集上进行了独立测试。由于使用了不平衡的数据集,准确率不能真正客观的评价预测性能,需综合考虑敏感性、特异性等评价标准以及模型的计算复杂度,3种方法具有不同的优缺点及适用情况。基于伪氨基酸的随机森林的方法因其较低的特征维度,计算复杂度较低,对于样本数量较大的数据集能快速的进行预测,但是该方法的特异性较高、敏感性较低,适用于对于真阴性有较高要求的预测;反之,对于真阳性有较高要求的预测,此方法不能满足其预测效果。基于多源特征提取策略和集成方法的预测方法相较于基于伪氨基酸的随机森林的方法敏感性显著提高,虽然对负样本的预测准确度有所降低,但是对正负样本均可实现有效预测,此方法的计算复杂度虽高于基于伪氨基酸的随机森林的方法,但仍可满足大量样本的快速预测需求。对于预测精度要求高、数据量大的数据集可使用该方法进行相互作用预测。而基于自动编码特征提取和集成方法的预测方法其敏感性和特异性均高于基于多源特征提取策略和集成方法的预测方法,对负样本的预测准确度虽不如基于伪氨基酸的随机森林的方法,但对正样本的预测准确度有大幅度的提升,该方法相较于其他两种方法,实现了更高的预测精度,对预测精度要求高且数据量较少的数据集,该方法是一个很好的选择;但对于大量数据的批量预测,由于其较高计算复杂度需要的时间会较长。
2、以蛋白质为靶标的适配体的筛选
传统的SELEX实验方法进行蛋白质靶标的适配体筛选要对序列文库经过十几轮的扩增与筛选,此技术虽已较为成熟,但是其过程复杂,时间成本高。通过计算方法实现以蛋白质为靶标的适配体的筛选可从缩小序列范围、加快识别与蛋白质具有相互作用的序列两方面着手。Lee W等[17]提出了一种基于序列和结构信息的蛋白质靶标的RNA筛选方法,数据集主要来源于PDB数据库和Li BQ等[6]构建的数据集,训练集包含了35个样本(RNA适配体-蛋白质复合物),并收集了696个RNA-蛋白质复合物用于计算核苷酸与氨基酸相互作用倾向(IP),测试集包含56个正样本和56个负样本,特征空间由核苷酸与氨基酸相互作用倾向(IP)[18,19]、单核苷酸组成、伪核苷酸组成、伪氨基酸组成等特征构成。根据结构特征,将6×106的随机RNA文库序列经过RNAfold[20]分析后挑选出符合条件的序列并使用经过对训练集进行学习的随机森林模型来计算RNA序列与蛋白质之间的结合概率。通过二级结构特征进行序列文库的初步筛选,缩小了后续筛选的范围,减轻了结合概率计算的工作量。将自由能和结合概率排序结果为前10的RNA作为以此蛋白质为靶标的适配体的筛选结果。该方法在独立测试集上筛选的准确率为0.714,证明了此方法的有效性和实用性。通过计算方法实现针对某一蛋白质的适配体的筛选相较于SELEX实验方法其费用更低,时间更快,但是由于初始的序列文库较大且过程复杂,对于多个蛋白质的批量处理较为困难;且此方法只对蛋白质的RNA适配体进行筛选,无法对DNA适配体进行筛选。
3、总结
通过计算方法实现相互作用预测及适配体的筛选可有效减轻相关研究人员的工作量,加快研究进程,但是现有的方法也存在一定的问题,通过以上所述,目前的蛋白质-适配体相互作用预测方法存在以下不足:(1)对不平衡数据集没有进行平衡处理而造成小样本的预测准确率较低,数据重构方法减少了训练集的样本数使得分类器对样本的学习不充足而降低了整体的预测准确率;(2)特征选取单一,而忽略关键特征影响了预测性能,特征选取不当易造成较高的计算复杂度,不利于大量样本的预测;(3)对机器学习方法缺少优化,预测准确度仍有提升的空间。目前蛋白质靶标的适配体筛选方法主要存在无法大规模开展,筛选范围不全面的问题。此外,实现的方法缺少对工具的开发,不方便研究人员使用。蛋白质-适配体相互作用预测及适配体筛选的计算方法已实现了较好的效果,随着更多的多中心研究,相信未来会有更快速、更准确的方法和工具的出现。
参考文献:
[4]谭志颖.基于深度学习的流感病毒抗原变异和病毒宿主预测[D].湖南大学,2018.
[9]张丽娜.基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究[D].山东大学,2017.
[14]李兴球,姜洪开,王瑞欣,等.基于迁移深度降噪自动编码器的飞机关键机械部件故障诊断方法[C]//第十三届全国振动理论及应用学术会议,2019.
[15]刘楚鸿,汪培萍.基于自动编码器集合的入侵检测系统的研究与实现[J].中国新通信,2019,21(24):71-74.
马晓玉,岳欣蕾,韩佳玲,李建伟.蛋白质-适配体相互作用预测的方法[J].医学信息,2020,33(10):27-29.
基金:国家自然科学基金项目(编号:81672113).
分享:
先兆流产是指在妊娠28周前阴道出现少许褐色分泌物或带下兼夹血丝,并伴有阵发性下腹痛或腰酸胀痛等症状,但宫颈口未开,胎膜未破,且子宫大小与停经周数相符。临床中先兆流产常合并宫腔积血一同出现,此时超声可见宫壁与胎盘或妊娠囊之间见有三角形、新月形、环形液性暗区存在。
2024-05-02先兆流产是临床常见的一种妇产科疾病,即在怀孕初期出现流产的先兆,表现为阴道出现褐色分泌物、阴道不规律出血或伴有下腹坠痛感,甚至白带有血丝,均称为先兆流产。在孕妇群体中先兆流产的发生占20%~25%,该疾病的发生给孕妇和家属都带来了严重的心理伤害,尤其是给孕妇的生理造成了严重影响。
2024-04-28中国湖北省西北部有丰富的稀土资源,探明储量居全国第三位,该矿区稀土分布集中、含量高、位于浅层地表。有研究表明,稀土元素容易通过环境的迁移富集到动植物和人体内,合理且较低剂量的稀土可用作植物肥料、动物生长的饲料添加剂,但含量超过一定限度时就会对植物的生长起到抑制作用,动物摄入过多的稀土元素会加重肝肾负担,造成免疫力低下,引发各类急慢性中毒。
2024-03-25糖尿病属于代谢性疾病的一种,在临床中有着较高的发病率,疾病的发生与胰岛素分泌缺陷有着非常密切的联系,机体长时间处于高血糖状态,将会对各组织和器官产生损伤。目前,临床对于糖尿病尚无有效根治方案,患者需要长时间用药治疗,其目的在于维持血糖水平稳定。
2024-02-27产后恶露不绝又称“恶露不尽、恶露不止”,是指产后连续3周以上阴道出现不规则流血,并伴有坏死蜕膜组织、血块等,主要与分娩方式、产妇年龄、子宫复旧不良等因素有关。随着二孩政策的放开和三孩政策的实施,孕产妇增多,剖宫产率上升。新时代女性独立意识增强,女性推迟结婚生育较为普遍,高龄产妇比重增加。
2024-02-27通过生化检验可以精准反映出患者当前身体状况,很多疾病的临床诊断和治疗方案的选定必须要借助生化检验结果才能完成,这一医疗检测手段在医院中的使用率非常高,有着其他检验诊断手段所无法比拟的优势。生化检验在临床诊断和治疗工作中有着极为重要的作用,对于疾病的诊断和治疗来说,生化检验结果是否准确,会对疾病的诊断结果和治疗效果产生关键性影响。
2021-07-17标本溶血会在各种因素的影响下发生,进而在临床检验过程中对部分生化检验结果造成不良影响。对标本溶血影响生化检验结果情况进行客观了解,然后采取有针对性的预防措施能够促进检验结果准确性、可靠性的提升。本研究分析了血清标本溶血对生化检验结果的影响。
2020-10-14适配体是一类较短的核酸序列,其具有特异性和高亲和力的分子结合能力[1]。尽管蛋白质与适配体之间的相互作用具有重要的研究意义和应用前景,但其相关研究工作也面临着诸多难题。传统的实验方法过程复杂、实验周期长、费用高,随着数据量的增多,其弊端更加突出,需采用高效的计算方法来进行蛋白质-适配体相互作用的研究工作。
2020-07-23干扰素调节因子因其能够调节干扰素及IFN诱导性基因的表达而得名,目前发现IRFs家族共有9个成员,即IRF-1~IRF-9。IRFs的N端为保守的DNA结合区,可形成helix-turn-helix基序,能与靶基因DNA序列(5'-AANNGAAA-3')结合[1,2]。IRF-8是IRFs家族的重要成员,其基因位于人染色体的16q24.1区域,蛋白质由426个氨基酸组成[3]。
2020-07-23DNA损伤特异结合蛋白2(damage specific DNA binding protein 2,DDB2)基因参与核苷酸早期损伤的切除修复,在DNA损伤与修复过程中发挥重要作用,此外还参与调节TGF-β/Smads信号通路相关基因的表达[1,2]。研究发现DDB2基因是痤疮的易感性位点,与相关的激素代谢、炎症发生和疤痕产生过程有重要关系[3]。
2020-07-23人气:16770
人气:14160
人气:14109
人气:13274
人气:13086
我要评论
期刊名称:河北医科大学学报
期刊人气:2884
主管单位:河北省教育厅
主办单位:河北医科大学
出版地方:河北
专业分类:医学
国际刊号:1007-3205
国内刊号:13-1209/R
邮发代号:18-31
创刊时间:1960年
发行周期:月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.000
影响因子:0.000
影响因子:0.000
影响因子:0.000
影响因子:0.000
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!