摘要:生物活性肽作为21世纪人类健康的新宠儿,研究证明其对人体生命活动有着很好的作用,其检测方法也是备受关注,太赫兹时域光谱技术因为其独特的性质在检测生物活性肽中有着不可比拟的优势。选用牛骨肽、海参肽和牛肽这三种生物活性肽,通过透射式太赫兹时域光谱系统得到其在0.5~2THz的吸收系数曲线。从太赫兹吸收系数曲线来看,鱼肽吸收系数大于海参肽和牛骨肽。因为生物活性肽的氨基酸种类和肽键的相互作用,导致其在太赫兹频段内没有明显的吸收峰,为了更好的对其进行检测区分,建立分类判别模型,寻找出最适合这类物质的方法。在对太赫兹原始吸收系数数据进行S-G平滑处理,归一化预处理之后,随机选取四分之三预处理好的数据划分为训练集,其余为预测集,导入分类判别模型。模型包括分类器和最优参数选取两部分,分类器选取支持向量机,随机森林和极限学习机等有监督的分类方法,使用遗传算法、粒子群算法和网格搜索等智能优化算法选取支持向量机最优参数。为了减少原始光谱数据维数并提高模型的运算速度,使用主成分分析进行预处理,将降维之后的结果导入分类模型。综合考虑其准确率和运行时间等因素,虽然基于粒子群算法的支持向量机具有最高的准确率98.3%,但是运行时间较长为180s;使用极限学习机能够有着最短的运行时间0.2s,但是准确率为73.3%。基于网格搜索的支持向量机准确率为95%,运行时间为11s,能够在准确率较高的情况下使用较短的时间,证明基于网格搜索的支持向量机对生物活性肽太赫兹吸收光谱具有快速,准确的分类结果。研究结果表明,利用太赫兹时域光谱技术结合机器学习算法能够实现快速、无损检测生物活性肽,为生物活性肽的检测提供了一种新思路,同时也为THz-TDS结合机器学习对吸收峰不明显的多肽之间的鉴别提供参考。
生物活性肽是一类分子介于蛋白质和氨基酸之间,由多种氨基酸以一定方式结合而成的二肽到多肽,具有一定生理作用的低分子聚合物[1]。生物活性肽相比于单个氨基酸,更容易且更有效被人体吸收,适合于年老体弱,过敏体质的人群。相比于蛋白质生物大分子,能够发挥其整体结构所不具有的特殊功能。具有降低血压,抗衰老,促进消化吸收及提高自身免疫调节能力等作用。在功能食品,药品,疫苗制备等食品学和医学领域有着广泛的应用。因此对它们的检测一直是国内外学者研究的重点。目前国内外主要应用的分析方法为色谱法,质谱法,核磁共振光谱[2]。
太赫兹辐射是指波长在0.03~3mm之间,频率在0~10THz,介于红外和微波之内的光谱[3]。THz波具有很好的透过性和特征光谱性质,运用其特性可以进行物质非接触式鉴别。多肽有其特定的氨基酸组成,且相互之间有电偶极矩,使其易受到太赫兹波段作用。Kutteruf[4]等通过改变温度,得到固相短肽链的THz吸收光谱吸收峰变化,又通过改变肽链氨基酸的数量,发现其吸收系数曲线变得复杂。文献[5]报道了四种简单二肽的太赫兹吸收曲线和各自在0~2.7THz的吸收峰,并且通过对双甘氨肽、丙谷二肽、肌肤和谷胱甘肽这四种肽分子结构的分析和密度泛函理论模拟,认为肽键的差异会导致肽类分子对太赫兹的吸收产生差别。
对于无明显太赫兹吸收峰的物质,一般难以通过吸收系数谱进行分类识别,需要结合机器学习算法和化学计量法进一步进行处理。通过建立有效的分析模型与太赫兹光谱技术相结合将是这个方面的重点内容。选择的预测模型为有监督的学习算法,包括支持向量机[6],随机森林[7],极限学习机[8]。支持向量机的主要思想是结构风险最小化的近似实现。但是由于支持向量机会由于数据维数过大而分类拟合效果不好等问题,本文结合主成分分析进行降维比较。随机森林是一种根据统计的思想,根据决策树的判断类别得出结果的分类器,拥有高预测精度和运算量小等特点。极限学习机是一种针对传统单隐前馈神经网络而提出的分类模型,有学习速度快,泛化性能好等优点。为了提高预测速度,降低噪声干扰,选择主成分分析法[9]进行对比,主成分分析法是一种常用的可以用于降维的方法,能够在丢失较少特征信息的前提下,将较高维度的数据转化为较低维度的数据。为了能寻找到支持向量机中参数的最优值,选择网格搜索,粒子群优化和遗传[10]算法作为优化算法。其中网格搜索通过穷举搜索选取最优参数;遗传算法通过一系列内在机制,仿照种群的进化过程,得到适应度近似最优的状态;粒子群算法不断调整速度和位置参数,来寻求最优解。
本文主要利用海参肽、牛骨肽、鱼肽三种代表性生物活性肽的太赫兹光谱数据,结合不同的机器学习算法,创建分类模型。主要以测试集预测准确率为考察标准,以运行速度为辅助标准。通过太赫兹光谱技术结合机器学习分类方法在生物活性肽检测领域进行探索。
1、实验部分
1.1设备
实验使用的是日本advantest公司的TAS7500SU。光谱范围为0.5~7.0THz,动态范围为57dB,频率分辨率为7.6GHz。本实验中用的是其透射模块,其结构如图1所示。
图1太赫兹时域光谱系统
1.2样品制备
实验中所用的牛骨肽粉末,海参肽粉末,鱼肽粉末均由百德福生物科技有限公司提供,纯度为99%,白色粉末。实验中为了保证测量的稳定性,将样品在压片之前置于干燥柜中干燥6h,干燥柜湿度20%,温度30℃。将样品与聚乙烯按照2∶1的质量比例混合,充分研磨。在10MPa压力下,压5min,压成厚度为(1.1±0.1)mm,直径为13mm的样品片,每种多肽分别压制符合要求,表面均匀的样品各30片。
1.3方法
在实验中,以干燥空气作为参考信号,每片样品分别在不同的位置测量3次。为了保证结果的可重复性和精确性,样品测完第一次之后放入干燥柜中保存24h,进行复测,同样也是每片样品移动不同位置分别测量3次。得到每片样品的吸收系数谱。
1.4数据处理方法
为了降低系统噪声和实验因素导致的噪声,提高光谱的平滑性,使用Savitzky-Golay(S-G)平滑预处理,考虑原光谱的特性,将平滑滤波器的拟合阶数设置为3阶,并且考虑其平滑特性,设置每15个点平滑一次。由于光谱图两端噪声比较大,选取0.5~2THz范围内的198个光谱数据进行分析。将数据进行标准化处理,归一化到[0,1]范围内。如图2所示,使用主成分分析法,光谱数据降维到8维之后的贡献率之和为95%,可以代替原光谱图。
图2PCA各成分得分
分类模型如图3所示,其中对于支持向量机参数优化环节,选择网格搜索、遗传算法和粒子群算法对其参数优化。训练模型选择的是支持向量机、随机森林和极限学习机。结果主要考察分类准确度和运行时间,在确保准确率高,大于90%的前提下,考虑运行时间。
图3模型流程图
2、结果与讨论
2.1吸收系数谱
将两次测量得到的数据进行平均,为了表示三种多肽的不确定度大小,三种多肽在0.5~2THz范围内的误差棒如图4所示,从图中可以看出在低频段,三种多肽样品几乎重叠,难以直接区分;在高频段,区分度较好,鱼肽吸收系数明显大于海参肽和牛骨肽。从这些多肽的太赫兹吸收系数上不能很容易对其进行区分,需要采用一些机器学习的算法。
图4海参肽、鱼肽和牛骨肽的吸收系数误差棒
2.2建模及定性分析
将经过数据预处理后的全部样品加上标签,随机选取四分之三数据量进行算法训练,其余数据用来进行测试。
为了找到分类三种多肽最好的算法,采用不同的机器学习方法进行对比验证,图5(a)为网格搜索加5折交叉验证法的支持向量机模型结果,结果表明,向量机惩罚因子C的最优值为8,核函数参数g的最优值是0.125,训练集准确率81.1%,测试集准确率95%,用时11.7s。
图5(b)为遗传算法寻优加5折交叉验证法的支持向量机模型结果,结果表明,向量机惩罚因子C的最优值为0.79,核函数参数g的最优值是356.3,训练集准确率63.9%,测试集准确率85%,用时152.8s。
图5(c)为粒子群寻优加5折交叉验证法的支持向量机模型结果,结果表明,向量机惩罚因子C的最优值为83.44,核函数参数g的最优值是0.01,训练集准确率82.2%,测试集准确率98.3%,用时180.8s。
图5(d)为主成分分析结合网格搜索下的支持向量机模型结果,结果表明,向量机惩罚因子C的最优值为1.414,核函数参数g的最优值是2,训练集准确率73.3%,测试集准确率78.3%,用时6.27s。
图5(e)为主成分分析结合遗传算法下的支持向量机模型结果,结果表明,向量机惩罚因子C的最优值为1.543,核函数参数g的最优值是2.2,训练集准确率81.7%,测试集准确率78.3%,用时41.9s。
图5(f)为主成分分析结合粒子群算法下的支持向量机模型结果,结果表明,向量机惩罚因子C的最优值为1.5,核函数参数g的最优值是1.7,训练集准确率82.2%,测试集准确率75%,用时65.3s。
图5不同优化方法下支持向量机分类结果
建立随机森林模型,经过多次试验,综合考虑准确率和运行时间,参数选择如图6(a)所示,最优的决策树个数为400,准确率达到最优准确率,时间最短。随机森林模型本身自带降维的能力,无需进行降维处理,结果如图6(b)所示,准确率为86.6%。
图6随机森林分类结果
(a):最优参数选择;(b):RF分类结果
图7ELM分类分类结果
(a):最优参数选择;(b):ELM分类结果
建立极限学习机模型,经过多次试验,综合考虑准确率和运行时间,参数选择如图7(a)所示,最优的隐含层神经元个数为400,准确率达到最高。极限学习机结果如图7(b)所示,准确率为73.3%。
表1给出了多种分类方法的预测精度和运行时间。从表1看出,数据进行PCA预处理之后,测试集的准确率较未进行预处理有所下降,但是运行时间也加快。通过比较三种监督机器学习算法,准确率最高的是支持向量机,但是运行时间最快的是极限学习机。准确率最高的是基于粒子群算法的支持向量机分类,为98.8%(59/60)的准确率。运行时间最短的是极限学习机,只需要0.2s。但是,在综合考虑测试集准确率和运行时间的情况下,最适合分类这三种多肽的算法是基于网格搜索的支持向量机,准确率为95%(57/60),运行时间是11.7s。
表1建模方法对预测结果的影响
3、结论
以牛骨肽,海参肽,鱼肽三种生物活性肽为研究对象,验证了太赫兹时域光谱技术对其定性分析中的应有潜力。为了更好的对其进行区分,利用这些多肽的吸收光谱信息结合机器学习算法,并且比较数据在PCA降维之后和未降维的分类对比情况,得出最适合分类这些多肽的分类算法。结果证明,使用网格搜索的支持向量机结合太赫兹时域光谱技术,可以实现对多肽的高效鉴别,有望促进太赫兹时域光谱技术在生物医学检测领域的应用。
参考文献:
[1]张志慧,苏秀兰.中国医药导报,2019,16(10):37.
[2]周亭屹,高新昌,等).食品工业科技,2019,(12):335.
[3]何明霞,郭帅.电子测量与仪器学报,2012,26(8):663.
[5]李利龙.硕士学位论文.长沙理工大学,2014.
[6]何晓群.多元统计分析.北京:中国人民大学出版社,2008.152.
王璞,何明霞,李萌,曲秋红,刘锐,陈永德.太赫兹光谱技术在生物活性肽检测中应用研究[J].光谱学与光谱分析,2020,40(09):2696-2701.
基金:国家自然科学基金项目(61675151)资助.
分享:
石墨氮化碳(g-C3N4)是一种二维(2D)环境友好的n电子结构共轭高分子材料。由于其合成方便、成本低、稳定性好,C3N4表现出多种光催化领域应用优势,如在析氧和析氢反应中。通过将2D g-C3N4作为添加剂引入到钙钛矿前驱液中,可以控制MAPb I3的结晶速率来改善钙钛矿薄膜的性能。
2023-09-14随着工农业的快速发展,土壤污染日趋严重,影响了经济发展,对人民的日常生活也产生了严重影响,其中以重金属污染最为严重,成为亟待解决的重大环境问题。目前,人们对土壤重金属污染的治理和修复已经开展了很多研究,按作用机理不同,可分为生物、化学、物理等几大类。
2023-09-01<正>氘代化合物在有机合成、分析化学、药物化学等领域有着十分广泛的应用[1].近年来,随着氘代药物的兴起,发展经济高效、生命友好的氘代反应和技术备受合成化学家们的关注.药物代谢过程中,碳氢键断裂是重要步骤之一,因碳氘键比碳氢键稳定数倍,故在药物分子代谢位点引入碳氘键后可改变代谢速率,在一定程度上降低毒性、增强药性[2].传统氘化反应往往涉及过渡金属催化、苛刻反应条件或昂贵氘源等。
2021-09-14为了更好的对其进行区分,利用这些多肽的吸收光谱信息结合机器学习算法,并且比较数据在PCA降维之后和未降维的分类对比情况,得出最适合分类这些多肽的分类算法。结果证明,使用网格搜索的支持向量机结合太赫兹时域光谱技术,可以实现对多肽的高效鉴别,有望促进太赫兹时域光谱技术在生物医学检测领域的应用。
2020-09-09使用拉曼光谱仪采集蔗糖水解过程中的光谱数据,通过角度转换法建立含量-角度值模型,模型的线性方程相关系数可达0.997,准确度较高;通过监测水解过程中蔗糖浓度随时间的变化而获得水解反应速率常数,改变蔗糖浓度、盐酸浓度和温度等条件,分析蔗糖的水解过程,将计算得到的水解反应速率常数与旋光法进行对比,绝对误差为0.0005。
2020-09-09稀土料液中微量和痕量元素的测定方法有电感耦合等离子体发射光谱法(ICP-OES)[3,4]、电感耦合等离子体质谱法(ICP-MS)[5,6]。本文采用ICP-OES法测定铥镱混合稀土料液中的氧化镥含量,采用基体匹配法消除基体的干扰,实验验证铥镱混合稀土料液中铥镱配比的波动对氧化镥测试的干扰,实现了铥镱混合稀土料液中氧化镥含量的定量分析。
2020-09-09有机合成化学是应用化学和化学、化工等专业的核心课程,是在学生先修了有机化学、无机化学、物理化学、化工原理等课程,掌握了化学化工基本理论的基础上开设的,目的是让学生了解精细化学品的合成原理及工艺,为后续专业课的学习及培养适应社会发展的高素质应用型人才奠定坚实基础。
2020-08-27有机化学是中医药院校制药工程专业必修的一门专业基础课,其中有机化学实验部分具有很强的实践性,与制药工程专业各门专业课联系紧密,在制药工程专业人才基本技能的夯实和综合能力的提升方面起着举足轻重的作用。然而,目前制药工程专业有机化学实验教学在中医药院校中仍然存在一些问题。
2020-08-27随着社会经济的发展,大量同质化的学术型高校造成了我国高等教育结构性矛盾突出,极大束缚了高等教育对创新型人才的培养。国家教育部、发展改革委、财政部三部委发布《关于引导部分地方普通本科高校向应用型转变的指导意见》。《高教规划》提出了着力提升应用型学科专业建设水平、培养应用型人才,为经济社会发展提供适应不同岗位特点的人才和不同技术领域的科技服务。
2020-08-27Morita-Baylis-Hillman(MBH)反应是指α,β不饱和化合物(主要是指缺电子烯烃)与亲电试剂(醛、酮、亚胺)在叔膦或者叔胺的催化下,生成烯烃α位加成的产物,该反应条件温和、底物适应范围广、产物含有烯烃、羟基等多个官能团等优点(图1)[1]。靛红MBH碳酸酯参与的[3+2]环化反应是最为常见的一种反应类型(图2),也是最基本、最常见的一种反应类型。
2020-08-27我要评论
期刊名称:化学通报
期刊人气:4341
主管单位:中国科学院
主办单位:中国科学院化学研究所,中国化学会
出版地方:北京
专业分类:化学
国际刊号:0441-3776
国内刊号:11-1804/O6
邮发代号: 2-28
创刊时间:1934年
发行周期:月刊
期刊开本:16开
见刊时间:一年半以上
影响因子:2.741
影响因子:1.160
影响因子:1.215
影响因子:0.770
影响因子:0.374
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!