摘要:定位模糊的特殊核小体与定位良好在DNA序列上难以区分,主要因为才者同时存在于染色体区域内,且化学性质差异不大。本文中基于实验需求构建了一个能真实反映核小体分布的数学模型。对于模型上不同性质核小体的分布中心进行定位,明确核小体定位性质判别标准,结果成功检测到了定位良好和模糊的核小体位置。
加入收藏
真核细胞内普遍存在着两种定位性质不同的核小体:即定位良好和定位模糊的核小体。二者的区别在于,定位良好的核小体包装DNA平均长度为147bp左右,而定位模糊的核小体包装DNA长度不定。尽管随着生物实验技术的进步和成本的下降,不同物种的核小体定位数据在不断产生,但现阶段完全依靠实验方法检测核小体定位性质还面临着以下问题:(1)生物种类繁多,用实验方法检测所有生物的核小体位置是一项不可能完成的任务。(2)生物实验需要大量的人力、物力和时间投入,其成本和时效性是一大制约因素。(3)虽然现阶段实验数据的规模和丰富程度给核小体相关研究提供了极大支持,但仍不能满足部分研究人员希望即时获得自身关注领域数据的现实要求。因此,在基因组研究的某些领域使用计算机建模并进行预测,是对生物实验研究的有力补充,甚至是现阶段一项不可替代的工作。
对于核小体定位性质(定位良好与定位模糊)一般是根据生物实验数据进行研究的。Gan等人[1]于2014年首次从结构角度研究了核小体定位特征和模糊核小体性质,提出了一种基于连续小波变换(CWT)的核小体位置预测新方法(WaveNuc)。
研究表明,基因的转起始位点周围通常存在着一个保守的核小体缺失区域(NFR)[2-4],而在其上、下游区域的核小体则呈现出周期性排列[5-11]。我们根据现有核小体分布规律,对基因组转录起始位点周围的核小体分布建立了一个高精度复合正弦模型,并在前人所做的核小体位置预测工作基础上[12],以该分布模型作为遗传算法的寻优目标函数,以确定不同性质核小体分布中心及相邻区域,最终实现对局部核小体定位性质的预测。
1、建立分布模型
在使用遗传算法进行核小体定位性质预测之前,需要构建一个能真实反映核小体分布的数学模型。由于目前在核小体研究领域还未解决全基因组范围内定位良好和定位模糊核小体的分布问题。面对这一难题,我们首先注意到一个普遍事实,即无论是单细胞的酵母,还是多细胞的果蝇,甚至是属于高等哺乳动物的人类,其核小体在基因启动子周围的组织形式都是高度保守和近似的[13](见图1)。
图1酵母转录起始位点的核小体分布图谱;图2四种拟合函数对比图
1.1 数据来源
酵母转录起始位点的核小体分布图谱来源于Lee等人于2007年做出的酵母核小体高分辨率占位率实验数据[20]。基因的转录起始位点据来源于David等人提出的4792个高置信度转录数据[21]。
1.2 拟合函数的选取
为了提取核小体组织形式,我们分别对多项式、傅里叶级数、高斯函数和正弦函数的拟合效果进行了比较。以上四种拟合方式实验结果如图2所示,其中(a)、(b)、(c)、(d)分别代表多项式拟合、傅里叶拟合、高斯拟合和正弦函数拟合。在图2的拟合结果中,多项式拟合精度最低(图2(a))。傅里叶拟合图像与核小体分布图像具有一定的相似性(图2(b)),但是位于转录起始点下游的区域拟合未能捕获原分布特征,即在远离转录起始位点两端的区域拟合程度较差。图2(c)是高斯函数拟合的结果,在转录区域高斯函数拟合的相似性较高,但在转录起始位点上游区域拟合误差最大。
图2(d)使用的是正弦函数进行的拟合,拟合图像几乎与实测核小体分布图谱完全重合,仅在上游区域远离TSS的区域存在拟合误差。
表1列出了五种拟合函数的性能指标。分别是:和方差(SSE)、拟合优度(Rsquare)、标准差(Rmse)、自由度(Dfe)及校正决定系数(Adjrsquare)。其中,和方差和标准差越接近于0,说明拟合出的数据与原始分布数据越相似。
而拟合优度与校正决定系数越接近于1时,拟合的效果越好。通过比较,可知使用正弦函数拟合的核小体分布图效果最好。
本文采用的复合正弦函数为:f(x)=∑9n=1Ansin(ωnx+φn)(1)
对上述拟合模型拟合后得到的最优参数见表2。
表1四种拟合函数性能指标(酵母);表2正弦拟合函数参数列表(酵母);图3转录起始位点周围核小体预测示意图;图4核小体预测性质定位示意图
2、核小体性质预测
在前人所做的核小体位置预测的基础上[12],我们利用遗传算法寻找分布模型中的极值点,其代表两种不同性质核小体的分布中心。具体方法:
(1)首先随机产生200个个体作为初始种群,为了简化计算,使用的是常规二进制编码。
(2)在遗传算子的选择上,交叉算子选用均匀交叉,变异算算子采用离散变异算法。我们测试后发现交叉概率选取区间为[0.7,0.9],变异率选取[0.001,0.1],遗传算法无论在收敛速度上,还是精度上都达到了实验预期。结果见表3和表4。
获得表3和表4所示的分布中心后,我们将按以下假设判别个体基因上的核小体定位性质:
(1)转录起始位点周围核小体分布谱的波峰中心及其邻近区域,是定位良好核小体的最可能出现的范围。如果支持向量机预测到核小体可能出现的区域与其重合,且连续范围达到120-160bp左右,可判别为定位良好的核小体。
(2)相反,如果核小体分布谱的波谷中心及其邻近区域与核小体预测区域重合,且连续范围大于160bp,则可判断为定位模糊的核小体。
表3遗传算法搜索到的波峰位置;表4遗传算法搜索到的波谷位置
根据上述方法,我们绘制了核小体定位性质预测示意图(见图4),图中最上端是预测模板,(a)、(b)、(c)、(d)分别代表是第三条染色体上,随机选取的4个基因(YCL027W、YCL040W、YCR054W和YCR066W)的转录区域,蓝色区域是由支持向量机根据DNA物理性质预测到的核小体可能出现的区域。图4中,通过拟合函数波峰与波谷周围构成的预测模板,将基因划分为不同的区域,如果预测到的核小体出现在波峰区域,且满足判定条件,可判别为核小体和模糊核小体的分布中心,其中黑色椭圆代表定位良好的核小体最可能出现的位置,蓝色为定位模糊的核小体最可能出现的位置。从总体辨识结果观察,定位良好核小体和模糊核小体在转录起始点周围区域遵循着“间隔平均,交替出现”的规律。
图3中,分布模型曲线中的蓝色阴影区域表示核小体缺失区域(NFR),波峰对应定位良好的核小体,波谷对应定位模糊的核小体。将单个基因上预测到可能存在核小体的区域与模板进行比对,当波峰区域与存在核小体区域重叠时,可以认为这一区域有较高概率出现定位良好的核小体;反之,当波谷区域与存在核小体区域重叠,那么表明这一区域有较高概率出现定位模糊的核小体;如果模板中无论是波峰还是波谷区域均不存在核小体时,那么可以认为这些区域是连接DNA。根据上述方法,我们绘制了核小体定位性质预测示意图(见图4),图中最上端是预测模板,(a)、(b)、(c)、(d)分别代表是第三条染色体上,随机选取的4个基因(YCL027W、YCL040W、YCR054W和YCR066W)的转录区域,蓝色区域是由支持向量机根据DNA物理性质预测到的核小体可能出现的区域。
图4中,通过拟合函数波峰与波谷周围构成的预测模板,将基因划分为不同的区域,如果预测到的核小体出现在波峰区域,且满足判定条件,可判别为定位良好,而出现在波谷区域则判别为定位模糊。通过以上方法,可以对全基因组转录起始位点周围的核小体预测结果进行定位性质判别。为了证明以上方法的正确性,我们将不同性质核小体区域与生物实验数据做了比较,在此阳性样本定义为预测区间内确实出现与该区间同性质的核小体,反之则为阴性样本,并使用了以下统计指标[23]:真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN),
真样本灵敏度:Sn+=TP/(TP+FN)(2)
负样本灵敏度:Sn-=TN/(TN+FP)(3)
真样本特异度:Sp+=TP/(TP+FP)(4)
负样本特异度:Sp-=TN/(TN+FN)(5)
准确率:Ac=TP+TNTP+TN+FP+FN(6)
马修斯相关系数:MCC=TP×TN-FP×FN(TP+FN)×(TP+FP)×(TN+FN)×(TN+FP)(7)
预测的四种基因的性能指标如表5所示。
图4核小体预测性质定位示意图;表5评价指标;图5四种基因的预测结果ROC曲线图
实验结果显示阳性样本所占比例即准确率(Ac)均以超过80%,说明此预测方法有效。图5为ROC曲线。
由图5看出四种基因的ROC曲线的得分均大于0.75,进一步说明预测结果具有统计意义,实现了核小体的性质判别,达到了预期的准确率和实验目的。
表5评价指标;图5四种基因的预测结果ROC曲线图
3、结语
根据转录起始位点核小体分布先验知识,建立拟合函数后,利用遗传算法搜索极值,确定出核小体定位性质划分模板,可有效辨别出定位良好和模糊的核小体位置。通过结果分析,证明了我们的方法在局部区域是行之有效的,是对模糊核小体预测工作进行的一次有益尝试。
郭亚茹,丰继华,于华峥,牟锦,黄月月,刘珂.基于遗传算法酵母核小体定位性质预测[J].生物信息学,2019,17(2):95-101.
基金项目:国家自然科学基金项目(31160234)
分享:
p53基因被广泛认为是一种关键的肿瘤抑制因子,在保护细胞完整性免受各种形式的基因毒性压力方面具有关键功能,包括DNA损伤、致癌激活和端粒侵蚀,然而,p53的突变会导致其肿瘤抑制功能的丧失和致癌活动的表现,因此,突变的p53基因已成为癌细胞增殖、侵袭和扩散的强有力的致癌驱动因素,引起了许多研究的极大关注。
2025-08-05地中海贫血(简称地贫)是一种常见的单基因常染色体隐性遗传病,是由于珠蛋白基因发生突变或缺失,致使珠蛋白链合成受抑制,使形成血红蛋白的α链与β、γ、δ链比例失衡,而导致的一组遗传性溶血性疾病。地贫根据突变的珠蛋白肽链位置,可以分为α-地贫、β-地贫、δ-地贫、δβ-地贫等类型,在中国以α-地贫和β-地贫最为常见[1]。
2025-03-26骨关节炎(Osteoarthritis,OA)是一种常见的退行性关节疾病,病理发展过程以膝关节软骨下骨和软骨的退行性改变为主,是导致膝关节运动功能障碍和慢性致残的主要疾病之一,也是中老年人的常见病和多发病,临床表现主要以膝关节疼痛、肿胀、畸形,以及功能活动受限等为主。 随着老龄化社会的到来,骨关节炎发病率不断上升,严重影响中老年患者的生活质量,同时也给患者家庭和社会带来巨大的经济负担。
2025-03-21地中海贫血(简称“地贫”)是由于珠蛋白肽链基因突变或缺失,使某种珠蛋白肽链合成障碍而导致的一组单基因遗传性慢性溶血性血红蛋白病。根据珠蛋白肽链合成障碍的不同,可将地贫分为α型、β型、δβ型和δ型4种,其中以α型和β型地贫较为常见。
2024-10-08腺苷脱氨酶2(adenosine deaminase 2,ADA2)是一种二聚体分泌蛋白,主要由骨髓来源的髓样细胞合成并分泌到细胞外。ADA2除了参与机体嘌呤核苷酸代谢过程,还在促进血管内皮细胞生长、单核细胞增生并向抗炎M2型巨噬细胞分化以及调节中性粒细胞活性等过程中发挥着重要作用。
2024-04-28先天性马蹄内翻足是小儿骨关节结构畸形中最常见的一种先天性足畸形,如果不及时治疗,将持续到成年期,导致行动不便和生活质量下降;其特征是后足内翻、前足内收、踝部马蹄和高弓足,较难矫正,发病率为1‰~4‰,男女比例为2.5∶1.0,双侧较单侧多发。目前,先天性马蹄内翻足的病因尚未明晰。
2024-04-11染色体Xp22.33和Yp11.32短臂末端的拟常染色体异常是导致身材矮小的最常见原因之一。SHOX基因位于性染色体X和Y染色体短臂的末端(Xp22.33或Ypll.3)拟常染色体区域内,该基因是Rao等于1997年首次克隆并定位的,包含6个外显子,全长35Kb, 其中完全编码序列为879bp。
2024-03-29智力障碍(intellectual disorder, ID)是儿童期常见的神经系统疾病,发病率为1%~3%。ID病因复杂,其中遗传因素约占其发病病因的50%。遗传因素主要包括染色体异常、拷贝数变异和单基因/多基因变异等。据报道,已有近2 000个基因与ID相关,但仍有50%左右的患者得不到明确诊断。
2024-03-28由于染色体复制、分配时产生错误等原因,DNA从染色体中脱落下来,形成环状DNA,散落在细胞中,称为染色体外环状DNA(extrachromosomal circular DNA, eccDNA)。eccDNA参与先天免疫反应、肿瘤生长等诸多生理和病理过程,成为了疾病诊断、癌症治疗等领域的研究重点。
2023-09-15多指(趾)畸形是一种常见的四肢畸形,单发最为常见,也可与并指(趾)和/或其它骨骼畸形同时存在,临床数据表明多指(趾)畸形患病特点是男性高于女性(5∶1),右手高于左手(2∶1)[1]。多指(趾)畸形在临床上分类复杂,一些综合征型多指(趾)畸形与其他疾病难以辨别。一般在婴儿出生时便可观察到多指(趾)形态,但综合征型多指(趾)的其他症状只能在生长发育过程中慢慢体现出来。
2021-12-06我要评论
期刊名称:生命科学
期刊人气:1546
主管单位:中国科学院
主办单位:国家自然科学基金委员会生命科学部,中国科学院生命科学与生物技术局,中国科学院生命科学和医学学部,中国科学院上海生命科学研究院
出版地方:上海
专业分类:生物
国际刊号:1004-0374
国内刊号:31-1600/Q
邮发代号: 4-628
创刊时间:1988年
发行周期:月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:1.343
影响因子:1.227
影响因子:1.286
影响因子:0.000
影响因子:1.349
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!