人类基因组是否已被完全理解并注释？

DNA序列终于完整了，但这究竟意味着什么？

将人类基因组想象成一个巨大的图书馆。几十年来，我们只能接触到书架上约92%的书籍。端粒到端粒（T2T）联盟终于在2022年为我们提供了完整的藏书，填补了缺失的8%——大约2亿页新的DNA“篇章”[4]。这是一项里程碑式的技术成就，破解了诸如着丝粒（染色体的“腰部”）以及五条染色体的短臂等长期难以解析的区域[4][6]。然而，将所有书籍摆上书架，并不等同于已经阅读并理解了每一本。

“注释”过程——即确定哪些DNA片段是真正的基因、它们的功能以及调控方式——远未完成。2006年的一项大型社区实验（EGASP）发现，即便是当时最优秀的计算机程序，也只能对约70%的已知基因正确预测出至少一种基因版本，而在捕捉单个基因不同剪接方式（选择性剪接）方面的准确率仅为40-50%[7]。尽管工具已有所改进，但这表明自动化注释仍不完善，需要大量的人工整理和实验验证。

新完成的区域最为神秘复杂

最难测序的区域，恰恰也是最难理解的。这些区域包括大量重复DNA序列，例如着丝粒和片段重复（即大段近乎完全相同的DNA复制片段）。T2T组装结果显示，片段重复占基因组的7%，而非此前估计的5.4%[2]。这些区域是结构变异——如倒位、缺失等个体间存在的大规模重排——的活跃温床[5][8]。

这种复杂性对医学具有重要意义。例如，T2T基因组使研究人员能够完整解析SMN1/SMN2基因区域——该区域对脊髓性肌萎缩症至关重要，以及AMY1/AMY2区域——该区域与淀粉消化和肥胖相关[1]。2023年的一项研究发现，KLRC基因簇（一个仅在T2T基因组中才被完整解析的区域）中的缺失与约20%人群的自然杀伤细胞分化有关[8]。这表明基因组的"暗物质"并非垃圾，其中包含我们刚刚开始探索的、具有医学意义的基因。

完整参考基因组是基因检测的变革性突破，但并非完全理解

拥有完整且精确的参考基因组（如T2T-CHM13）能显著提升我们在个体中识别遗传变异的能力。2022年的一项研究表明，使用T2T参考基因组替代较旧的GRCh38参考基因组，每人可消除数万个假阳性变异，并将269个医学相关基因中的错误减少多达12倍[10]。这意味着在对患者基因组进行测序时，误报更少，诊断更准确。

然而，即便拥有完美的参考基因组，我们仍无法解读所发现的大部分变异。一项2023年针对超过7.6万个人类基因组的大规模研究绘制了基因组的"约束图谱"，标明了哪些区域至关重要以至于突变几乎不被容忍[9]。尽管这张图谱有助于识别功能性区域，但它也证实了绝大多数非编码基因组并未表现出约束迹象，这意味着其功能（如果存在的话）仍然未知。此外，2025年对完整HG002基因组的基准测试表明，即便是最先进的方法也依然面临挑战——从头组装虽比传统变异检测方法性能提升一个数量级，但在最复杂的区域中，每10万个碱基对仍会产生约一个错误[3]。我们已拥有完整的地图，却仍在学习如何解读它。

本文引用的文献

近乎完整人类基因组中的复杂遗传变异

对65个多样性基因组进行测序并构建130个单倍型解析的组装，填补了此前92%的组装缺口，并完整解析了MHC和着丝粒等复杂位点，揭示了着丝粒阵列长度存在高达30倍的变异。

2025 · Glennis A Logsdon, Peter Ebert, Peter A Audano, Mark Loftus, David Porubsky, Jana Ebler, Feyza Yilmaz, Pille Hallast, Timofey Prodanov, DongAhn Yoo, Carolyn A Paisie, William T Harvey, Xuefang Zhao, Gianni V Martino, Mir Henglin, Katherine M Munson, Keon Rabbani, Chen-Shan Chin, Bida Gu, Hufsah Ashraf, Stephan Scholz, Olanrewaju Austine-Orimoloye, Parithi Balachandran, Marc Jan Bonder, Haoyu Cheng, Zechen Chong, Jonathan Crabtree, Mark Gerstein, Lisbeth A Guethlein, Patrick Hasenfeld, Glenn Hickey, Kendra Hoekzema, Sarah E Hunt, Matthew Jensen, Yunzhe Jiang, Sergey Koren, Youngjun Kwon, Chong Li, Heng Li, Jiaqi Li, Paul J Norman, Keisuke K Oshima, Benedict Paten, Adam M Phillippy, Nicholas R Pollock, Tobias Rausch, Mikko Rautiainen, Yuwei Song, Arda Söylev, Arvis Sulovari, Likhitha Surapaneni, Vasiliki Tsapalou, Weichen Zhou, Ying Zhou, Qihui Zhu, Michael C Zody, Ryan E Mills, Scott E Devine, Xinghua Shi, Michael E Talkowski, Mark J P Chaisson, Alexander T Dilthey, Miriam K Konkel, Jan O Korbel, Charles Lee, Christine R Beck, Evan E Eichler, Tobias Marschall · Nature

原文

完整人类基因组中的节段性重复及其变异

完整的T2T基因组显示，片段重复占基因组的7.0%（218 Mbp），高于此前估计的5.4%，且新解析的重复序列中有91%更能代表人类拷贝数变异。

2022 · Mitchell R Vollger, Xavi Guitart, Philip C Dishuck, Ludovica Mercuri, William T Harvey, Ariel Gershman, Mark Diekhans, Arvis Sulovari, Katherine M Munson, Alexandra P Lewis, Kendra Hoekzema, David Porubsky, Ruiyang Li, Sergey Nurk, Sergey Koren, Karen H Miga, Adam M Phillippy, Winston Timp, Mario Ventura, Evan E Eichler · Science (New York, N.Y.)

原文

用于个性化基因组学的完整二倍体人类基因组基准。

针对二倍体HG002基因组的端粒到端粒基准，在99.4%的基因组区域实现了近乎完美的准确性，新增了此前基准中缺失的15.3%序列，并表明从头组装在性能上比变异检测方法高出一个数量级。

2025 · Nancy F Hansen, Nathan Dwarshuis, Hyun Joo Ji, Arang Rhie, Hailey Loucks, Glennis A Logsdon, Mitchell R Vollger, Jessica M Storer, Juhyun Kim, Eleni Adam, Nicolas Altemose, Dmitry Antipov, Mobin Asri, Sofia Barreira, Stephanie C Bohaczuk, Andrey V Bzikadze, Sara A Carioscia, Andrew Carroll, Kuan-Hao Chao, Yanan Chu, Arun Das, Peter Ebert, Adam English, Mark Fleharty, Laura E Fleming, Giulio Formenti, Andrea Guarracino, Gabrielle A Hartley, Katharine Jenike, Jenna Kalleberg, Yu Kang, Robert King, Josipa Lipovac, Mira Mastoras, Matthew W Mitchell, Shloka Negi, Nathan D Olson, Keisuke K Oshima, Luis F Paulin, Brandon D Pickett, David Porubsky, Jane Ranchalis, Desh Ranjan, Mikko Rautiainen, Harold Riethman, Robert D Schnabel, Fritz J Sedlazeck, Kishwar Shafin, Mile Sikic, Steven J Solar, Alexander P Sweeten, Winston Timp, Justin Wagner, DongAhn Yoo, Ying Zhou, Erik Garrison, Evan E Eichler, Michael C Schatz, Andrew B Stergachis, Rachel J O'Neill, Karen H Miga, Steven L Salzberg, Sergey Koren, Justin M Zook, Adam M Phillippy · bioRxiv : the preprint server for biology

原文

人类基因组的完整序列

T2T联盟生成了一个完整的30.55亿碱基对的人类基因组序列，新增了近2亿碱基对的序列，其中包含1956个基因预测，99个被预测为蛋白质编码基因。

2022 · Sergey Nurk, Sergey Koren, Arang Rhie, Mikko Rautiainen, Andrey V Bzikadze, Alla Mikheenko, Mitchell R Vollger, Nicolas Altemose, Lev Uralsky, Ariel Gershman, Sergey Aganezov, Savannah J Hoyt, Mark Diekhans, Glennis A Logsdon, Michael Alonge, Stylianos E Antonarakis, Matthew Borchers, Gerard G Bouffard, Shelise Y Brooks, Gina V Caldas, Nae-Chyun Chen, Haoyu Cheng, Chen-Shan Chin, William Chow, Leonardo G de Lima, Philip C Dishuck, Richard Durbin, Tatiana Dvorkina, Ian T Fiddes, Giulio Formenti, Robert S Fulton, Arkarachai Fungtammasan, Erik Garrison, Patrick G S Grady, Tina A Graves-Lindsay, Ira M Hall, Nancy F Hansen, Gabrielle A Hartley, Marina Haukness, Kerstin Howe, Michael W Hunkapiller, Chirag Jain, Miten Jain, Erich D Jarvis, Peter Kerpedjiev, Melanie Kirsche, Mikhail Kolmogorov, Jonas Korlach, Milinn Kremitzki, Heng Li, Valerie V Maduro, Tobias Marschall, Ann M McCartney, Jennifer McDaniel, Danny E Miller, James C Mullikin, Eugene W Myers, Nathan D Olson, Benedict Paten, Paul Peluso, Pavel A Pevzner, David Porubsky, Tamara Potapova, Evgeny I Rogaev, Jeffrey A Rosenfeld, Steven L Salzberg, Valerie A Schneider, Fritz J Sedlazeck, Kishwar Shafin, Colin J Shew, Alaina Shumate, Ying Sims, Arian F A Smit, Daniela C Soto, Ivan Sović, Jessica M Storer, Aaron Streets, Beth A Sullivan, Françoise Thibaud-Nissen, James Torrance, Justin Wagner, Brian P Walenz, Aaron Wenger, Jonathan M D Wood, Chunlin Xiao, Stephanie M Yan, Alice C Young, Samantha Zarate, Urvashi Surti, Rajiv C McCoy, Megan Y Dennis, Ivan A Alexandrov, Jennifer L Gerton, Rachel J O'Neill, Winston Timp, Justin M Zook, Michael C Schatz, Evan E Eichler, Karen H Miga, Adam M Phillippy · Science (New York, N.Y.)

原文

完整人类基因组组装中的倒位多态性

将41个基因组的数据重新比对至T2T参考基因组后，发现对倒位变异的检测灵敏度提升了约21%，并识别出旧版GRCh38参考基因组中的26处方向错误。

2023 · David Porubsky, William T. Harvey, Allison N. Rozanski, Jana Ebler, Wolfram Höps, Hufsah Ashraf, Patrick Hasenfeld, Benedict Paten, Ashley D. Sanders, Tobias Marschall, Jan O. Korbel, Evan E. Eichler · Genome biology

原文

人类着丝粒的完整基因组与表观遗传图谱

完整的人类着丝粒图谱显示，它们占基因组的6.2%（189.9兆碱基），并揭示了多兆碱基的结构重排，以及个体间在结构、表观遗传和序列变异方面的高度差异。

2022 · Nicolas Altemose, Glennis A Logsdon, Andrey V Bzikadze, Pragya Sidhwani, Sasha A Langley, Gina V Caldas, Savannah J Hoyt, Lev Uralsky, Fedor D Ryabov, Colin J Shew, Michael E G Sauria, Matthew Borchers, Ariel Gershman, Alla Mikheenko, Valery A Shepelev, Tatiana Dvorkina, Olga Kunyavskaya, Mitchell R Vollger, Arang Rhie, Ann M McCartney, Mobin Asri, Ryan Lorig-Roach, Kishwar Shafin, Julian K Lucas, Sergey Aganezov, Daniel Olson, Leonardo Gomes de Lima, Tamara Potapova, Gabrielle A Hartley, Marina Haukness, Peter Kerpedjiev, Fedor Gusev, Kristof Tigyi, Shelise Brooks, Alice Young, Sergey Nurk, Sergey Koren, Sofie R Salama, Benedict Paten, Evgeny I Rogaev, Aaron Streets, Gary H Karpen, Abby F Dernburg, Beth A Sullivan, Aaron F Straight, Travis J Wheeler, Jennifer L Gerton, Evan E Eichler, Adam M Phillippy, Winston Timp, Megan Y Dennis, Rachel J O'Neill, Justin M Zook, Michael C Schatz, Pavel A Pevzner, Mark Diekhans, Charles H Langley, Ivan A Alexandrov, Karen H Miga · Science (New York, N.Y.)

原文

EGASP：人类ENCODE基因组注释评估项目。

EGASP实验发现，最佳计算方法能正确预测约70%已注释基因的至少一个转录本，但多转录本准确性（考虑可变剪接）仅达到约40-50%。

2006 · Roderic Guigó, Paul Flicek, Josep F Abril, Alexandre Reymond, Julien Lagarde, France Denoeud, Stylianos Antonarakis, Michael Ashburner, Vladimir B Bajic, Ewan Birney, Robert Castelo, Eduardo Eyras, Catherine Ucla, Thomas R Gingeras, Jennifer Harrow, Tim Hubbard, Suzanna E Lewis, Martin G Reese · Genome biology

原文

首个完整人类基因组中大规模基因组差异的特征分析

对T2T-CHM13与GRCh38之间大规模差异的分析发现了67个额外的差异区域（约21.6 Mbp），并鉴定出KLRC基因簇中的一个缺失，该缺失与约20%人类自然杀伤细胞的分化相关。

2023 · Xiangyu Yang, Xuankai Wang, Yawen Zou, Shilong Zhang, Manying Xia, Lianting Fu, Mitchell R Vollger, Nae-Chyun Chen, Dylan J Taylor, William T Harvey, Glennis A Logsdon, Dan Meng, Junfeng Shi, Rajiv C McCoy, Michael C Schatz, Weidong Li, Evan E Eichler, Qing Lu, Yafei Mao · Genome biology

原文

利用76,156个人类基因组中的变异绘制出的基因组突变约束图谱

整合gnomAD中76,156个人类基因组数据，构建了全基因组约束图谱，显示受约束的非编码区域富集了已知的调控元件以及与复杂疾病相关的变异。

2023 · Siwei Chen, Laurent C. Francioli, Julia K. Goodrich, Ryan L. Collins, Masahiro Kanai, Qingbo Wang, Jessica Alföldi, Nicholas A. Watts, Christopher Vittal, Laura D. Gauthier, Timothy Poterba, Michael W. Wilson, Yekaterina Tarasova, William Phu, Riley Grant, Mary T. Yohannes, Zan Koenig, Yossi Farjoun, Eric Banks, Stacey Donnelly, Stacey Gabriel, Namrata Gupta, Steven Ferriera, Charlotte Tolonen, Sam Novod, Louis Bergelson, David Roazen, Valentin Ruano-Rubio, Miguel Covarrubias, Christopher Llanwarne, Nikelle Petrillo, Gordon Wade, Thibault Jeandet, Ruchi Munshi, Kathleen Tibbetts, Maria Abreu, Carlos A. Aguilar Salinas, Tariq Ahmad, Christine M. Albert, Diego Ardissino, Irina M. Armean, Elizabeth G. Atkinson, Gil Atzmon, John Barnard, Samantha M. Baxter, Laurent Beaugerie, Emelia J. Benjamin, David Benjamin, Michael Boehnke, Lori L. Bonnycastle, Erwin P. Bottinger, Donald W. Bowden, Matthew J. Bown, Harrison Brand, Steven Brant, Ted Brookings, Sam Bryant, Sarah E. Calvo, Hannia Campos, John C. Chambers, Juliana C. Chan, Katherine R. Chao, Sinéad Chapman, Daniel I. Chasman, Rex Chisholm, Judy Cho, Rajiv Chowdhury, Mina K. Chung, Wendy K. Chung, Kristian Cibulskis, Bruce Cohen, Kristen M. Connolly, Adolfo Correa, Beryl B. Cummings, Dana Dabelea, John Danesh, Dawood Darbar, Phil Darnowsky, Joshua Denny, Ravindranath Duggirala, Josée Dupuis, Patrick T. Ellinor, Roberto Elosua, James Emery, Eleina England, Jeanette Erdmann, Tõnu Esko, Emily Evangelista, Diane Fatkin, Jose Florez, Andre Franke, Jack Fu, Martti Färkkilä, Kiran Garimella, Jeff Gentry, Gad Getz, David C. Glahn, Benjamin Glaser, Stephen J. Glatt, David Goldstein, Clicerio Gonzalez, Leif Groop, Sanna Gudmundsson, Andrea Haessly, Christopher Haiman, Ira Hall, Craig L. Hanis, Matthew Harms, Mikko Hiltunen, Matti M. Holi, Christina M. Hultman, Chaim Jalas, Mikko Kallela, Diane Kaplan, Jaakko Kaprio, Sekar Kathiresan, Eimear E. Kenny, Bong-Jo Kim, Young Jin Kim, Daniel King, George Kirov, Jaspal Kooner, Seppo Koskinen, Harlan M. Krumholz, Subra Kugathasan, Soo Heon Kwak, Markku Laakso, Nicole Lake, Trevyn Langsford, Kristen M. Laricchia, Terho Lehtimäki, Monkol Lek, Emily Lipscomb, Ruth J. F. Loos, Wenhan Lu, Steven A. Lubitz, Teresa Tusie Luna, Ronald C. W. Ma, Gregory M. Marcus, Jaume Marrugat, Kari M. Mattila, Steven McCarroll, Mark I. McCarthy, Jacob L. McCauley, Dermot McGovern, Ruth McPherson, James B. Meigs, Olle Melander, Andres Metspalu, Deborah Meyers, Eric V. Minikel, Braxton D. Mitchell, Vamsi K. Mootha, Aliya Naheed, Saman Nazarian, Peter M. Nilsson, Michael C. O’Donovan, Yukinori Okada, Dost Ongur, Lorena Orozco, Michael J. Owen, Colin Palmer, Nicholette D. Palmer, Aarno Palotie, Kyong Soo Park, Carlos Pato, Ann E. Pulver, Dan Rader, Nazneen Rahman, Alex Reiner, Anne M. Remes, Dan Rhodes, Stephen Rich, John D. Rioux, Samuli Ripatti, Dan M. Roden, Jerome I. Rotter, Nareh Sahakian, Danish Saleheen, Veikko Salomaa, Andrea Saltzman, Nilesh J. Samani, Kaitlin E. Samocha, Alba Sanchis-Juan, Jeremiah Scharf, Molly Schleicher, Heribert Schunkert, Sebastian Schönherr, Eleanor G. Seaby, Svati H. Shah, Megan Shand, Ted Sharpe, Moore B. Shoemaker, Tai Shyong, Edwin K. Silverman, Moriel Singer-Berk, Pamela Sklar, Jonathan T. Smith, J. Gustav Smith, Hilkka Soininen, Harry Sokol, Rachel G. Son, Jose Soto, Tim Spector, Christine Stevens, Nathan O. Stitziel, Patrick F. Sullivan, Jaana Suvisaari, E. Shyong Tai, Kent D. Taylor, Yik Ying Teo, Ming Tsuang, Tiinamaija Tuomi, Dan Turner, Erkki Vartiainen, Marquis Vawter, Lily Wang, Arcturus Wang, James S. Ware, Hugh Watkins, Rinse K. Weersma, Ben Weisburd, Maija Wessman, Nicola Whiffin, James G. Wilson, Ramnik J. Xavier, Anne O’Donnell-Luria, Matthew Solomonson, Cotton Seed, Alicia R. Martin, Michael E. Talkowski, Heidi L. Rehm, Mark J. Daly, Grace Tiao, Benjamin M. Neale, Daniel G. MacArthur, Konrad J. Karczewski · Nature

原文

完整的参考基因组有助于更精确地分析人类遗传变异。

使用T2T-CHM13参考基因组，普遍提升了数千个全球多样性样本的读段比对和变异检测效果，每个样本消除了数万个假阳性变异，并将269个医学相关基因中的假阳性率降低了最多12倍。

2022 · Sergey Aganezov, Stephanie M Yan, Daniela C Soto, Melanie Kirsche, Samantha Zarate, Pavel Avdeyev, Dylan J Taylor, Kishwar Shafin, Alaina Shumate, Chunlin Xiao, Justin Wagner, Jennifer McDaniel, Nathan D Olson, Michael E G Sauria, Mitchell R Vollger, Arang Rhie, Melissa Meredith, Skylar Martin, Joyce Lee, Sergey Koren, Jeffrey A Rosenfeld, Benedict Paten, Ryan Layer, Chen-Shan Chin, Fritz J Sedlazeck, Nancy F Hansen, Danny E Miller, Adam M Phillippy, Karen H Miga, Rajiv C McCoy, Megan Y Dennis, Justin M Zook, Michael C Schatz · Science (New York, N.Y.)

原文