91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

探讨果蝇基因组中的内含子长度的分布规律

  2020-07-01    547  上传者:管理员

摘要:根据内含子剪接机制的差异,可将其分为3类:自我剪接内含子、tRNA内含子或古细菌内含子以及剪接体内含子。本研究以人类研究得最彻底的生物之一果蝇基因组中的内含子(属于剪接体内含子)为研究对象,分析了其内含子长度的分布规律,并与基因长度的分布规律进行了比较,讨论了两类序列遗传、变异和进化,目的是为内含子的分布和基因结构的研究提供新的思路和方法。

  • 关键词:
  • 内含子
  • 分子生物学
  • 基因组
  • 序列
  • 果蝇
  • 加入收藏

1977年,Sharp和Roberts研究组同时发现了断裂基因,即基因中有间插序列,这些序列可以转录,在基因转录后,经它们转录的部分通过加工被从初级转录本中准确去除,保留基因的编码部分,产生有功能的RNA。而这些间插在基因中的序列被称作内含子(Intron),在成熟的mRNA保留的编码序列被称作外显子(Exon)。大多数原核生物基因中很少有内含子存在,而在真核生物基因中内含子的存在却是普遍现象,且其序列长度通常远大于外显子的长度,如在人类基因组中非编码序列占到95%以上。这就是说,随着生物的进化,其内含子所占比例在升高。在早期,由于内含子属于非编码序列,曾被认为是没有功能的基因组的垃圾,但是自内含子被发现以来,有关其生物功能的研究备受关注(Royetal.,2006),随着研究的进行,很多研究结果表明内含子并非垃圾序列而是在基因表达调控中有着重要的生物学功能(房浩霞等,2008)。总结内含子生物学意义可能有以下两种:第一、有利于遗传信息的储存;第二、有利于变异和进化(王宁和陈润生,1999),比如发生在交界处的突变,就可能使正常的剪切位点受到影响,从而使蛋白质的结构发生一定的变化(童英等,2007)。

目前,内含子功能的研究大概有以下几个方面:第一、内含子可编码内切酶(张惟杰等,1999)。第二、内含子可调控基因的表达,同时增加遗传信息的储存(Zhangetal.,2003)。第三、发生在在外显子与内含子的交界区的突变,可以产生不同的mRNA,这在保留原有蛋白的同时,也可以产生一种新的蛋白,从而提高进化速率(Royetal.,2003),对这类内含子剪接机理的研究有利于了解遗传系统的分子进化和真核基因表达(Carmeletal.,2007)。第四、在物种进化中的应用,王宁等(1999)对内含子和外显子序列进行近亲缘关系物种的进化分析,结果显示内含子序列也可以提供有用的物种进化信息。如李利等(2007),用山羊FSHβ基因的内含子序列,经序列搜索,得到了7个物种的相似序列,并构建了系统发育树,所得结论与传统分类学结论一致。第五、内含子多态性研究,考虑到内含子序列的变异高于相应的编码序列,研究者发展了基于内含子多态性的分子标记,反映基因本身的信息,并应用于基因定位研究。第六、进行基因组分析,如进行序列比对(陈兵等,2010)。

根据内含子剪接机制的差异,可将其分为3类:自我剪接内含子、tRNA内含子或古细菌内含子以及剪接体内含子。本研究以人类研究得最彻底的生物之一果蝇基因组中的内含子(属于剪接体内含子)为研究对象,分析了其内含子长度的分布规律,并与基因长度的分布规律进行了比较,讨论了两类序列遗传、变异和进化,目的是为内含子的分布和基因结构的研究提供新的思路和方法。


1、结果与分析


1.1内含子相对数目随长度分布的统计

以xk为横坐标,yk为纵坐标,得到内含子序列的相对频数随内含子长度的分布(图1)。由于内含子长度在大于4000bp时,内含子数目很少,因此yk(xk)的值也很小,长度大于4000bp的内含子占总数的0.1%,所以可将分布函数的自变量xk取值限制在(0~4000)内,这样并不影响统计结果,考虑到篇幅有限,只给出Ⅲ号染色体内含子相对频数分布的示意(图1)。

3组染色体上内含子的分布规律是一致的,即在一定范围内随内含子长度的减小内含子数目递增,内含子长度介于1~30bp内的内含子是存在的,但数目极少,仅占0.2%,而长度介于60~80bp的内含子最多,高达14.9%。长度在1~80bp范围内,内含子数目随其长度的增加而增加,而且增加速度极快,长度大于80bp范围内内含子数目随其长度的增加而减少,其中在80~600bp内递减速度较快,长度大于600bp时递减速度较慢(图1;图2)。

1.2内含子相对数目随其长度分布的伽玛分布拟合

对内含子相对数目随长度的分布用Γ(α,β)分布进行拟合,得到果蝇内含子序列的相对数目随其长度的拟合结果(表1;图2)。

结果表明,3组染色体上拟合结果的卡方值(χ2)都很小,决定系数r2接近1(表2),χ2值决定拟合结果的显著性,χ2值的大小由实际观察值与理论值之间的偏离程度决定,若二者的值完全相等时,卡方值就为0,说明观察值与理论值完全符合(表2;图2)。这里拟合结果中χ2值趋近0,说明实际值和理论值偏差很小,内含子的实际分布和理论分布模型相符合,拟合结果表明果蝇内含子的相对频数随其长度的分布与Γ(α,β)分布相符合(表2)。

图1内含子相对数目随其长度的分布

图2不同染色体上内含子数目随其长度的分布的Γ(α,β)分布拟合曲线

1.3果蝇外显子相对频数随长度分布的统计

为了较全面地了解基因长度的分布规律,本研究计算了2号染色体上外显子的相对频数随外显子长度的分布(图3),并用Γ(α,β)分布拟合,拟合结果为α=(2.78±0.02),β=(143±0.12),χ2=2.15E-4,r2=0.97,χ2值趋于0,说明外显子随长度的分布也符合Γ(α,β)分布。虽然两类序列都符合Γ(α,β)分布,但两类序列的分布明显不同,外显子的分布更接近正态分布,由于内含子对翻译产物的结构无意义,不受自然选择的压力,所以它比外显子累积有更多的突变(ChoandDoolittle,1997)(图2;图3)。因此,本研究猜想,在基因进化的过程中,内含子的分布逐渐偏离正态分布趋向α=1的Γ(α,β)分布。

图3外显子相对数目随其长度的分布


2、讨论


有遗传,便有变异,遗传变异是生物进化的源泉,促使生物在亿万年间可以不断适应环境、不断进化。在生命科学领域,有关基因结构和进化的研究是分子生物学研究的重要内容,其中内含子是基因结构的主要成分之一,有关内含子的研究也是基因结构研究的重要领域。Γ(α,β)分布是一种重要的分布模型,本课题先前的研究发现密码子对随其频数的分布与Γ(α,β)分布相符合,随着生物的进化,α值逐渐增大,β值也在增加,其中,α值代表分布的形状,β值反映了基因组的规模(WangandLi,2009)。而冯立芹和李宏(2004)的研究结果表明,基因组中开阅读框架长度的分布模型与Γ(α,β)分布相符合,且随着生物的进化,其分布逐渐接近α=1的Γ(α,β)分布。本研究结果表明,内含子的长度分布具有类似的规律,内含子作为间插序列,在基因中与外显子相间排列,依据一般生物学的知识,最短的外显子不可能在整个基因中占很大比例,而果蝇基因组中内含子随其长度的分布(图1),发现内含子的分布具有这样的规律,1~30bp内的内含子仅占0.2%。根据数理统计知识可知,当α≥10时,Γ(α,β)分布可近似看作正态分布,既然从低等生物到高等生物,外显子的分布参数α逐渐减小(冯立芹和李宏,2004),那么可以猜想,在原始生命中,生物基因组中的外显子和内含子的Γ(α,β)分布参数α较大,即服从正态分布,随着生物生存环境的变化,生物基因组中外显子和内含子的分布偏离了正态分布,选择了适合其生活的Γ(α,β)分布,而相对外显子,内含子不受获受到较小的选择压力,因此积累更多的突变,随着环境的不断变化,参数α在逐渐减小。

表1不同染色体上内含子数目随其长度的分布的Γ(α,β)分布拟合

内含子分布、功能和进化的研究,是基因组序列功能研究的一个方面,本研究从内含子的长度分布的角度得到了其分布模型,结果为后续研究基因的结构、功能和进化开辟了新的途径,因为在基因中内含子序列比外显子序列长,更具代表性,不但如此,还可以以此衡量染色体的进化(Zhangetal.,2003;张静,2003),从对模式生物基因组的识别和注释中得到启示,进而去识别和注释人类基因组,这也是广大生物学家和物理学家的研究重点。


3、材料与方法


3.1材料

果蝇基因组中的内含子序列从网站下载了Ⅱ号、Ⅲ号、Ⅳ号染色体上的内含子(表1)。

3.2内含子序列相对数目的定义以及内含子相对数目随其长度的分布

果蝇内含子库给出了第2条、第3条和第4条染色体的内含子库,本研究对3条染色体内含子子库分别进行了分析,首先对每条染色体内含子以碱基为单位,以60bp为基准分区,长度为1~60bp,记为x1=60,61~120bp,记为x2=120,以此类推,第k个区组xk=k×60,其次统计出每个区间内的内含子数目,记为N1、N2、…、Nk、…,计算出每个区间内的内含子的数占总数内含子数目的比(式1),即相对数目:

记为数组{xk,yk},以xk为横坐标,yk为纵坐标,得到内含子序列的相对频数随内含子长度的分布图(图1)。

3.3Γ(α,β)分布

若随机变量x的密度函数为:

则称x服从伽马分布,记作x~Γ(α,β),其中α为形状参数,β为尺度参数(方开泰和许建伦,1987)。这个分布的平均值:

n阶矩为

其中2阶矩就是标准差:

伽马函数:


参考文献:

[2]陈兵,文建凡,2010,内含子在生物信息学研究和基因工程中的应用,生命的化学,30(1):59-63)

[3]房浩霞,王安平,高波,孙怀昌,2008,鸡卵清蛋白基因第一内含子和3'-调控区对外源基因表达的调控作用,生物工程学报,24(2):333-338)

[4]方开泰,许建伦,主编,1987,统计分布,科学出版社,中国,北京,pp.331-332)

[5]冯立芹,李宏,2004,基因组中开阅读框架长度的分布模型与基因组进化,生物物理学报,20(5):375-381)

[6]李利,张红平,吴登俊,2007,南江黄羊FSHβ亚基基因内含子1序列的测定及分析,黑龙江畜牧兽医,(3):7-9)

[7]童英,李冰霞,陈金辉,刘正华,郑康,罗琛,2007,金鱼Vsx1基因结构及其内含子多态性分析,激光生物学报,16(4):418-423)

[8]王宁,陈润生,1999,基于内含子和外显子的系统发育分析的比较,科学通报,44(19):2095-2102)

[9]张静,石秀凡,杨恒芬,2003,酵母内含子在基因序列中的分布对基因转录效率的影响,生物化学与生物物理进展,30(6):945-949)

[10]张惟杰,何志勇,徐晋麟,1999,内含子编码蛋白与内含子的转移,中国工程杂志,19(2):29-31,55)


王芳平,王志坚,李永香.果蝇基因组中内含子数目随其长度的分布研究[J].基因组学与应用生物学,2020,39(03):1062-1066.

基金:国家自然科学基金(11665019);甘肃省科技计划(18JR3RE241);甘肃省高等学校科研项目(2018B-41)共同资助.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

生物多样性

期刊名称:生物多样性

期刊人气:1935

期刊详情

主管单位:中国科学院

主办单位:中国科学院生物多样性委员会,中国植物学会,中国科学院植物研究所,中国科学院动物研究所,中国科学院微生物研究所

出版地方:北京

专业分类:生物

国际刊号:1005-0094

国内刊号:11-3247/Q

邮发代号:82-858

创刊时间:1993年

发行周期:月刊

期刊开本:大16开

见刊时间:一年半以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定