人类参考基因组 Human reference genome CHM13/hg19/hg38/GRCh37/GRCh38/b37/hs375d

本文基于 https://github.com/Cloufield/CTGCatalog/tree/main/Reference_data/Genome

目前使用较为广泛的人类参考基因组的版本有(20221011更新):

  • CHM13
  • GRCh38 / h38
  • GRCh37 / hg19
  • hs375d
  • b37
  • humanG1Kv37

CHM13

目前最新的参考基因组版本,利用long-read seq技术与名为CHM13 的纯合的完全性葡萄胎(complete hydatidiform mole)的细胞系,T2T项目完成了人类第一个完整的参考基因组CHM13,该成果与其相关研究于2022年发表于Science上。

  • 链接: https://github.com/marbl/CHM13
  • 内容: chr1-22(CHM13),chrX(CHM13),chrY(NA24385),chrM(CHM13)
  • 参考: Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., … & Phillippy, A. M. (2022). The complete sequence of a human genome. Science, 376(6588), 44-53.

GRCh38 / hg38

由基因组参考联合会 (Genome Reference Consortium)发布,正式名称为GRCh38(Genome Research Consortium human build 38),也被称为hg38(Human genome build 38, UCSC发布的版本),初版发布于2013年12月,特点是使用ALT contigs来代表常见的复杂变异,例如HLA loci.

GRCh38 (GRCh38.p14) 链接: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.40

UCSChg38 链接: https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

该版本的组装主要包含:

  • 组装的染色体:1-22号染色体(chr1-22),X(chrX),Y染色体(chrY),以及线粒体DNA(chrM)
  • Unlocalized sequences :已知位于某一染色体上,但方向和位置未知, 该类序列有_random后缀标注
  • Unplaced sequences:未知染色体来源的序列,有chrU_ 前缀标注
  • Aalternate loci/ALT contigs :有 _alt 后缀标注,为某一区域可能的其他序列,表示这一区域的基因多样性

此外还包括:

  • Pseudo-autosomal regions (PAR): XY染色体上的同源序列
  • Homologous centromeric and genomic repeat arrays: 着丝粒 与 基因组重复序列(卫星DNA)
  • EBV & decoys:EB病毒 与 诱饵序列等不能map到人类基因组的序列
GRCh38.p7的染色体图。放大的区域表示蓝色区域有大量的N。

GRCh37/ hg19

基因组参考联合会 (Genome Reference Consortium)于2009年2月发布的历史版本,近年发表文献多使用这一版本,但逐渐再向 GRCh38 过渡。

GRCh38 相比 GRCh37,修改了8000多错误的单核苷酸,纠正了若干错误组装的区域,填充了部分gap,新增了着丝粒(centromeres)的序列,并且大幅增加了alternate loci的数量。

University of California at Santa Cruz (UCSC) 于 2009 年 2 月发布的人类基因组组装hg19,与GRCh37序列基本相同,但具有不同的线粒体序列和其他替代的单倍型组装。对染色体的命名不同,为“1”,“2”。

GRCh37.p13 : https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.25

UCSC hg19: http://hgdownload.cse.ucsc.edu/goldenpath/hg19/bigZips/


hs37d5

在 千人基因组项目第二阶段 (1000 genome phase II) 中组装的参考基因组,来自Broad Institute,主要包括以下序列:

  • GRCh37:Integrated reference sequence from the GRCh37 primary assembly (chromosomal plus unlocalized and unplaced contigs)
  • rCRS 线粒体序列:The rCRS mitochondrial sequence (AC:NC_012920)
  • 人疱疹病毒 4 型 1 类:Human herpesvirus 4 type 1 (AC:NC_007605)
  • 级联诱饵序列的数据(名称的由来):Concatenated decoy sequences (hs37d5cs.fa.gz)

b37

在 千人基因组项目第一阶段 (1000 Genomes Project Phase I ) 中组装的参考基因组,由Broad Institute发布,该组装主要基于GRCh37,包括来自 GRCh37、rCRS 线粒体序列和人疱疹病毒 4 型 1 类的数据。

  • 文件名: Homo_sapiens_assembly19.fasta
  • 来源: the 1000 Genomes Project Phase I and III, Broad Institute
  • URL : https://data.broadinstitute.org/snowman/hg19/
  • 内容: 1…22,X,Y,MT, unlocalized sequences (GL000191.1 …), unplaced sequences(GL000211.1 …) , NC_007605

humanG1Kv37

参考资料:

https://gatk.broadinstitute.org/hc/en-us/articles/360035890711?id=23390

https://cloud.google.com/life-sciences/docs/resources/public-datasets/reference-genomes

https://www.sciencedirect.com/science/article/pii/S0888754317300058

One thought on “人类参考基因组 Human reference genome CHM13/hg19/hg38/GRCh37/GRCh38/b37/hs375d”

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s