DNA序列终于完整了,但这究竟意味着什么?
将人类基因组想象成一个巨大的图书馆。几十年来,我们只能接触到书架上约92%的书籍。端粒到端粒(T2T)联盟终于在2022年为我们提供了完整的藏书,填补了缺失的8%——大约2亿页新的DNA“篇章”[4]。这是一项里程碑式的技术成就,破解了诸如着丝粒(染色体的“腰部”)以及五条染色体的短臂等长期难以解析的区域[4][6]。然而,将所有书籍摆上书架,并不等同于已经阅读并理解了每一本。
“注释”过程——即确定哪些DNA片段是真正的基因、它们的功能以及调控方式——远未完成。2006年的一项大型社区实验(EGASP)发现,即便是当时最优秀的计算机程序,也只能对约70%的已知基因正确预测出至少一种基因版本,而在捕捉单个基因不同剪接方式(选择性剪接)方面的准确率仅为40-50%[7]。尽管工具已有所改进,但这表明自动化注释仍不完善,需要大量的人工整理和实验验证。
新完成的区域最为神秘复杂
最难测序的区域,恰恰也是最难理解的。这些区域包括大量重复DNA序列,例如着丝粒和片段重复(即大段近乎完全相同的DNA复制片段)。T2T组装结果显示,片段重复占基因组的7%,而非此前估计的5.4%[2]。这些区域是结构变异——如倒位、缺失等个体间存在的大规模重排——的活跃温床[5][8]。
这种复杂性对医学具有重要意义。例如,T2T基因组使研究人员能够完整解析SMN1/SMN2基因区域——该区域对脊髓性肌萎缩症至关重要,以及AMY1/AMY2区域——该区域与淀粉消化和肥胖相关[1]。2023年的一项研究发现,KLRC基因簇(一个仅在T2T基因组中才被完整解析的区域)中的缺失与约20%人群的自然杀伤细胞分化有关[8]。这表明基因组的"暗物质"并非垃圾,其中包含我们刚刚开始探索的、具有医学意义的基因。
完整参考基因组是基因检测的变革性突破,但并非完全理解
拥有完整且精确的参考基因组(如T2T-CHM13)能显著提升我们在个体中识别遗传变异的能力。2022年的一项研究表明,使用T2T参考基因组替代较旧的GRCh38参考基因组,每人可消除数万个假阳性变异,并将269个医学相关基因中的错误减少多达12倍[10]。这意味着在对患者基因组进行测序时,误报更少,诊断更准确。
然而,即便拥有完美的参考基因组,我们仍无法解读所发现的大部分变异。一项2023年针对超过7.6万个人类基因组的大规模研究绘制了基因组的"约束图谱",标明了哪些区域至关重要以至于突变几乎不被容忍[9]。尽管这张图谱有助于识别功能性区域,但它也证实了绝大多数非编码基因组并未表现出约束迹象,这意味着其功能(如果存在的话)仍然未知。此外,2025年对完整HG002基因组的基准测试表明,即便是最先进的方法也依然面临挑战——从头组装虽比传统变异检测方法性能提升一个数量级,但在最复杂的区域中,每10万个碱基对仍会产生约一个错误[3]。我们已拥有完整的地图,却仍在学习如何解读它。
本文引用的文献
近乎完整人类基因组中的复杂遗传变异
对65个多样性基因组进行测序并构建130个单倍型解析的组装,填补了此前92%的组装缺口,并完整解析了MHC和着丝粒等复杂位点,揭示了着丝粒阵列长度存在高达30倍的变异。
完整人类基因组中的节段性重复及其变异
完整的T2T基因组显示,片段重复占基因组的7.0%(218 Mbp),高于此前估计的5.4%,且新解析的重复序列中有91%更能代表人类拷贝数变异。
用于个性化基因组学的完整二倍体人类基因组基准。
针对二倍体HG002基因组的端粒到端粒基准,在99.4%的基因组区域实现了近乎完美的准确性,新增了此前基准中缺失的15.3%序列,并表明从头组装在性能上比变异检测方法高出一个数量级。
人类基因组的完整序列
T2T联盟生成了一个完整的30.55亿碱基对的人类基因组序列,新增了近2亿碱基对的序列,其中包含1956个基因预测,99个被预测为蛋白质编码基因。
完整人类基因组组装中的倒位多态性
将41个基因组的数据重新比对至T2T参考基因组后,发现对倒位变异的检测灵敏度提升了约21%,并识别出旧版GRCh38参考基因组中的26处方向错误。
人类着丝粒的完整基因组与表观遗传图谱
完整的人类着丝粒图谱显示,它们占基因组的6.2%(189.9兆碱基),并揭示了多兆碱基的结构重排,以及个体间在结构、表观遗传和序列变异方面的高度差异。
EGASP:人类ENCODE基因组注释评估项目。
EGASP实验发现,最佳计算方法能正确预测约70%已注释基因的至少一个转录本,但多转录本准确性(考虑可变剪接)仅达到约40-50%。
首个完整人类基因组中大规模基因组差异的特征分析
对T2T-CHM13与GRCh38之间大规模差异的分析发现了67个额外的差异区域(约21.6 Mbp),并鉴定出KLRC基因簇中的一个缺失,该缺失与约20%人类自然杀伤细胞的分化相关。
利用76,156个人类基因组中的变异绘制出的基因组突变约束图谱
整合gnomAD中76,156个人类基因组数据,构建了全基因组约束图谱,显示受约束的非编码区域富集了已知的调控元件以及与复杂疾病相关的变异。
完整的参考基因组有助于更精确地分析人类遗传变异。
使用T2T-CHM13参考基因组,普遍提升了数千个全球多样性样本的读段比对和变异检测效果,每个样本消除了数万个假阳性变异,并将269个医学相关基因中的假阳性率降低了最多12倍。
