首页 > 论文范文 > 自然科学论文 > 生物学论文 > 生物工程论文 > “端粒到端粒”人类参考基因组：精准医学时代的新起点

“端粒到端粒”人类参考基因组：精准医学时代的新起点

2024-04-26 54 上传者：管理员

摘要：DNA测序技术的飞速发展使人类基因组学研究迈进“端粒到端粒(T2T)时代”。这个时代的核心标志是实现每一个人类染色体分子——从端粒到端粒——高质量、高完整度的连续线性组装，成为精准医学质量控制的金标准，从而准确和稳定地识别个体变异信息。越来越多个体基因组的完整组装为我们揭示远高于预期的人类基因组差异，也为各人群采用自己的近缘参考基因组进行变异分析提供了关键的理论依据。近缘参考基因组可以更准确地识别和定位个体的基因变异，而准确的变异数据是精准医学中变异与表型关联研究的关键数据基础。这种以人群为单位的基因组分析和研究新范式，必将显著影响国际和国内未来精准医学发展的格局。

关键词：
人类基因组计划
医学基因组大数据
参考基因组
基因组诊断和治疗
测序技术
端粒到端粒(T2T)基因组拼接
精准医学
加入收藏

2023年，随着人类基因组最后一块拼图——Y染色体实现T2T(telomere-to-telomere，端粒到端粒；染色体的末端为端粒，故T2T意为“连续且完整”)拼接[1]，人类终于有了自身单倍体基因组(包括22条常染色体和X、Y性染色体)的准确完整序列——T2T-CHM13v2.0，成为人类科学史上的里程碑。同年，中国浙江大学团队和我们北京大学–中国科学院团队也相继发表了中国人二倍体基因组CN1[2]和T2T-YAO(唐尧)[3]。人类基因组学眨眼间就登上了T2T时代的舞台。

1、为什么2023年会迎来人类基因组的T2T时代？

2023年是DNA双螺旋结构发现70周年，也是人类基因组计划(HGP)完成20周年[4]。然而，这些只是历史的巧合，显然都不是人类基因组能够进入T2T时代的根本原因，测序技术的发展突破奇点才是。

大型基因组拼接的“原料”是从DNA测序仪得到的随机片段化的DNA读序(read)，而拼接算法将含有相同区段的读序关联起来，不断延伸，直至整条染色体。20多年前，人类基因组计划宣布“完成”之时，大约完成了一套人类基因组90%的区域，且序列之间还存在很多间隙(gap)[5]。之后，美国国立卫生研究院(NIH)资助参考基因组联盟(GRC)，不断努力，力争实现人类基因组准确完整(T2T)拼接。

基因组中序列相同或高度相似的重复序列是拼接的难点，无法确定相互之间的线性排列关系，成为导致间隙的主要原因。重复单元的长度越长，拼接难度越大。在过去20多年，尽管基因组领域不断摸索各种拼接算法，但是由于当时测序技术的读序长度无法跨越重复区域，从而无法确定其在基因组中的位置，进展十分缓慢，人类基因组中重复单元的天然长度成为拼接算法无法跨越的台阶(图1)。随着长读长测序技术的不断发展，读序长度终于达到临界点：2019年，PacBio公司推出读序可达15 kb (kb，千碱基，目前可达23 kb)，准确率达到99.9%的HiFi测序技术[6];2021年，ONT公司的超长测序N50(一种评价read长度的参数，接近于中位数长度)可达100 kb，准确率>98%[7]，长度超过了人类基因组中最长的重复单元——45 kb的rDNA区。至此，人类基因组的T2T拼接在理论上可以实现了[8]。

图1基因组拼接的原理。长度短于重复区的读序(read)无法判定重复区域的线性排列关系，形成间隙；但是能够跨越重复区的长读序可以借助重复区两边的序列特征将其正确排布，提高基因组拼接的连续性

随后，人类基因组领域的多个国际团队迅速对所研究的样本开展上述HiFi和超长ONT测序。2022年，GRC首先完成了人类葡萄胎细胞株CHM13的基因组测序和拼接。葡萄胎细胞株的染色体来自单倍体的生殖细胞，因此可以省去多倍体在基因组拼接中的干扰，从而简化拼接过程。纯母本的CHM13细胞株(核型为22+X)是GRC研究多年的样本，积累了大量不同平台的测序和分析数据，可以用于验证拼接结果。4月，高质量的T2T-CHM13v1.1基因组成功组装[9]，相关研究在Science杂志同期发表了6篇系列论文，轰动一时。2023年，人类基因组中重复区域最多的Y染色体也完成T2T拼接[1]，与T2T-CHM13v1.1合并，成为包含人类全部22+XY染色体完整序列的T2T-CHM13v2.0。

我们团队在2023年完成了人类二倍体“唐尧”基因组(44+XY)的高质量拼接，成果发表在国内基因组领域旗舰杂志《基因组蛋白质组与生物信息学报》[3]。T2T-YAO的拼接特点包括：①充分预估二倍体基因组需要的测序数据量，翻倍增加测序量，以提供充足的拼接“原料”；②优化测序前的DNA处理流程，将ONT测序的N50从官方保障的50 kb提高至158 kb，以最大程度跨越重复区；③摒弃先拼接再区分父母单倍型的传统策略，采用分开使用父母本读序分别拼接的流程，最大程度降低相似序列的干扰，提高了拼接的准确性。T2T-YAO单倍型版本的拼接质量达到Q74.69，即1个错误/29.4 Mb(Mb，百万碱基)，甚至超过了T2T-CHM13v1.1的Q73.94(1个错误/24.5 Mb)，成为当时国际上拼接质量最高的人类基因组。

可见，无论国内还是国外研究团队，无论单倍体还是二倍体，人类基因组实现T2T拼接的根本原因是上述长读长测序技术和相应的拼接策略的发展。长度能够跨越人类基因组重复区的准确读序为20年来在黑暗中逡巡摸索的人们带来了登上T2T时代的阶梯。我们有幸成为最早登上这一技术阶梯的人类之一，并亲身见证了测序技术对基因组领域发展的决定性推动作用。继人类基因组之后，多种高等生物的T2T基因组频频登上各类科学杂志封面，T2T基因组拼接组装也正在流程化，并成为更多实验室可以独立完成的任务。

对于人类而言，获得T2T基因组只是一个开始，它对精准医学的撬动带来的曙光才刚刚展现。

2、来自细菌基因组的启发

要回答人类基因组领域未来如何发展，我们可以先看看“先人一步”的细菌基因组研究的发展历程。人类最关心的莫过于自身的基因组，但是由于人的基因组有30亿个碱基长，对于早期的测序和分析技术而言过于巨大，于是，聪明的前辈们以基因组只有人类1/800大小的大肠杆菌作为模式生物，获得初始的经验，以谋划人类基因组领域的发展。

从图2可见，人类基因组的发展总是追随细菌，并从中得到诸多启示，包括人类基因组计划的预算——30亿美金(1美元/碱基)的测算依据就来自当时大肠杆菌基因组测序拼接的成本[10]。除此之外，回顾细菌基因组的发展更能让我们抛开纷纷扰扰的细节，从纵深的视角理解科学进步的脉络和节奏。

图2细菌和人类基因组发展大事记

10年前做过细菌基因组完成图拼接(相当于人类基因组的T2T，因为大多数细菌是环形基因组，没有端粒，所以称为完成图)的人应该还清晰记得，2014年PacBio公司推出的读序长度为5 kb的第一代单分子长读长测序技术[11]。在此之前，完成一株细菌基因组的完成图需要1～2年，对上百个间隙进行填补，收费也高达10万元，各种拼接算法层出不穷，但都差强人意；而在PacBio测序技术出现之后，一次测序就可以轻松实现完成图，不需要复杂的算法和补洞，收费也迅速降至几千元，究其关键原因在于该技术的读序长度刚刚能够跨过大多数细菌基因组中最长的重复区——约4.5 kb的rDNA区。这段经历让我们震撼于测序技术突破奇点后带来的巨大威力，也深刻体会到实现基因组完成图的关键所在，从而准确预测技术奇点的出现，并有幸抓住了完成人类T2T基因组这个一生一次的机遇。

再说到新晋热点——人类泛基因组研究[12,13]，不妨也回顾一下十几年前细菌的泛基因组研究的发展历程。“泛基因组”是指对同一物种的多个个体基因组进行研究，是了解该物种的群体基因组多态性(所有个体的基因组差异)的必经之路，研究内容包括分析记录不同个体基因组携带的基因元件、相同元件的序列变异和结构变异(同一元件在基因组上的位置差异)。这些差异(不同基因型)可以和表型之间建立关联关系，并构建相应的数据库，从而预测表型，这与人类泛基因组研究的思路大同小异[14]。区别在于，人类通过基因水平转移获取新基因的概率很小，当下的人类“泛基因组”研究似乎更特指构建“泛基因组图谱”，力图将所有结构变异绘制于一张图中。然而，在细菌泛基因组研究中，大多数细菌的结构变异趋于无限，技术上无法实现将所有的变异集于一图，因此经历十余年发展仍然主要以数据库的形式存在。人类泛基因组图谱的未来则取决于人类基因组结构变异的有限性，且有待于更多人类群体基因组数据的规模化积累来验证。

3、人类个体间基因组差异有多大？

人类对于自身个体间基因组差异(多态性)的认知经历了一个复杂的过程。在T2T拼接之前，人类能看到的自身基因组既不完整，也不连续，其中绝大部分区段在个体间是共有的。这些区段中的序列差异主要表现为SNP(单核苷酸多态性)，累计总长为200万～400万碱基(约占基因组1‰)。对于其中个体特异的区段，技术上无法排除是由于测序拼接不完整造成的。因此，一直以来，大家认为“所有人类个体拥有相同的基因，个体间序列差异不大，整个基因组的序列差异累积～1‰”[15]。然而在实现T2T拼接之后，就可以排除拼接不完整性的结果。我们系统比较T2T-CHM13和T2T-YAO基因组时，发现两者差异序列竟高达～10%，且大于T2T-YAO自身的两个单倍型之间的差异。同期，美国GIAB联盟拼接的接近T2T的犹太裔HG002二倍体基因组，也报道了两个单倍型间>3%(远大于1‰)的序列差异[16]。从技术方面讲，差异序列的来源有两个方面：①现有的算法比对困难的简单重复序列(common repeat)集中区域，如约占基因组5%的着丝粒区；②个体间真实存在的基因元件的差异，推测约占基因组的5%，虽然其中包括基因的拷贝数变异，以及一些假基因，但是仍有数百个基因存在“有”和“无”的差异。这些基因在以往的研究中往往呈现极高的序列多态性和不稳定性[12,13]，挑战了“人类个体之间很少有基因层面的差异，基因组序列差异约1‰”这一基于不完整基因组的错误认知。

人类基因组多态性是人类群体基因组胤续绵延的基础，其生物学性质是可塑性。也就是说，变化是绝对的，传承是相对的，是由新功能、生殖力和适应性等内在因素与自然选择、生存竞争、种群迁移等外在因素在偶然、必然、妥协等时间轴框架下共同决定的。如果我们能够收集和保存足够多的精准个体基因组数据，假以时日，这些问题和答案都会被科学家们具体、完整地呈现出来。

人类个体间(尤其是人种间)基因组序列上存在的巨大差异，还带来一个新问题：是否需要改变现有的全人类使用同一个参考基因组的基因组分析模式，每个人种/人群采用各自的近缘参考基因组，建立以人种/人群为单元的基因组分析模式？

4、精准医学需要高质量的人类参考基因组

发现基因型–表型的确定性关联关系是精准医学的核心内涵[17,18]，也是一切人类基因组分析和研究的出发点。受限于测序和拼接技术水平，为了最大程度降低操作过程引入的错误，以及成本、算力和时间消耗，目前的人类基因组重测序分析以及临床基因组诊断，均采用免拼接流程(图3)，直接将测序读序比对到参考基因组，然后通过软件算法识别重测序个体基因组中的变异(variant)。患者的变异数据经变异–表型数据库进行记录检索，对其疾病诊断和预后做出判断。由此可见，参考基因组的质量决定了变异识别的准确度。每个个体的变异数据(及其在参考基因组上的位置信息)又是后续一切变异–表型关联分析的起点，所有精准医学及未来人工智能大数据分析最根本的数据基础。因此，如何准确识别变异并获得准确的群体变异数据集，就成为影响精准医学正确发展的关键。

此外，准确完整人类参考基因组还是精准评价所有测序技术平台、基因组拼接、序列比对和变异识别算法的金标准，从而保障基因组分析和精准医学体系的稳定性，有望成为未来万亿级精准医学市场的锚定点[19]。所以美国NIH不惜巨资和数十年的不懈努力，也要将人类参考基因组的质量推向极致。

NIH发布的GRCh系列参考基因组，样本沿袭自人类基因组计划的多个人类个体，是一个以欧–非裔基因组为主的嵌合型参考基因组，其最新版本GRCh38仍有很多因嵌合拼接而无法纠正的错误，严重影响变异识别的准确性和稳定性，成为阻碍基因组医学大规模临床应用的重要技术障碍之一。T2T-CHM13等T2T高质量参考基因组的出现，不仅全面展示了人类自身的遗传信息，更有效提高了变异识别和基因组诊断的准确度[20]，为精准医学的临床应用和腾飞提供技术保障。

图3基因组分析流程

5、中国人是否需要自己的高质量参考基因组？

再来审视现行的NIH参考基因组“一统天下”的人类基因组分析范式和中国人要不要用自己的参考基因组的问题。抛开民族主义和经济利益的考量，单从科学上分析，答案主要取决于两方面的因素：①使用与待测样本人种/人群不匹配的参考基因组导致的错误数量；②精准医学对变异识别的精度需求。

上文提到，人类个体间基因组水平的差异远大于曾经预估的1‰，人群间确实存在差异的基因组区域。首先，如果参考基因组中没有待测个体的基因组区段就无法识别和标记其中的变异位点，造成假阴性；其次，包含很多基因的节段性重复(segmental duplication,SD)约占人类基因组序列的6%～9%，也会造成变异识别的假阳性和假阴性，而SD分布的相似性与亲缘关系正相关[21]。采用近缘的参考基因组可以减少上述两种变异识别错误。我们初步进行了中国人基因组重测序数据分析，以现行的GRCh38或T2T-CHM13为参考基因组导致的变异识别的错误数可高达每人数万至数十万，其中平均每人有万余位点是在ClinVar数据库中记录与表型有关的(未发表数据)，这显然超过了精准医学临床诊断中能容忍的变异识别错误程度。中国人作为世界上人口最多的种群之一，至少需要一个高质量的参考基因组满足中国人基因组诊断和精准医学临床应用的需求。

当越来越多的人认识到T2T级别的完整参考基因组会显著提高变异识别的准确度[20],T2T-CHM13就会逐步取代现行的GRCh38参考基因组。在这个基因组发展的历史关键点上，T2T-YAO(唐尧)基因组的出现恰逢其时。我们可以凭借后发优势快速建立和迁移目前已知的人类基因组注释、多态性位点和变异–表型数据库，并在此基础上积累中国人的变异数据，建立中国人自己的基因组分析系统。对于普通患者而言，更改数据分析后台的参考基因组设置，不增加任何成本，却可以显著提升基因组诊断的正确率，使患者受益，也使中国的精准医学发展有了自己的根基[18,22]。

6、迎接中国的人人基因组时代和精准医学的腾飞

30多年前，当怀揣梦想的年轻人雄心勃勃地开始人类基因组计划的时候，大概会以为“人人基因组”的时代和“精准医学”还是遥远的未来，很少有人能预测到技术发展的速度竟如此惊人。那时完成一个人的基因组测序拼接，需要全世界上百实验室通力合作，耗资30亿美元。而现在一个研究生，每人一两千人民币就可以轻松实现[23];CRISPR技术更可以精准编辑高等生物的基因组；各种基因组技术逐步就绪，正以亲民的价格走出实验室，逐渐融入临床应用，服务个体健康，成为“看得见”的精准医学。

30年的时间也见证了测序技术对基因组领域的巨大推动作用，而且这种效应还将随着测序技术的发展持续发力。近年来，中国在测序技术领域也取得长足进步，但距离尖端原创技术还有相当大的距离要追赶，毕竟，测序技术才是精准医学的“硬核”，是必须掌握的技术。除了测序和参考基因组，基因组技术从实验室到临床还要完成一系列的任务，包括整个测序和分析流程的精细化和标准化管理，保障检测结果的稳定性和可信性，实践严格的质量控制，保证合理的价格区间，沟通和配合医疗监管部门的“管”和“理”，协调相关机构的合作，普及精准医学的理念和知识，最终为患者的诊疗和健康带来切实的收益。这些都将充分考验基因组领域专业人员的智慧和勇气。

30多年后的今天，当T2T的号角吹响，技术的发展必将突破藩篱，从所有可能的地方渗入人们的生活，人人基因组时代和曾经憧憬的精准医学会以更惊人的速度扑面而来，每一个人都需要做好准备。甲辰之年，祝愿中国的基因组学和精准医学实现“龙的腾飞”。

参考文献:

[4]于军.“人类基因组计划”回顾与展望:从基因组生物学到精准医学[J].自然杂志, 2013, 35(5):326-331.

文章来源:康禹.“端粒到端粒”人类参考基因组:精准医学时代的新起点[J].自然杂志,2024,46(02):88-94.