本文基于 https://github.com/Cloufield/CTGCatalog/tree/main/Reference_data/Genome
目前使用较为广泛的人类参考基因组的版本有(20221011更新):
- CHM13
- GRCh38 / h38
- GRCh37 / hg19
- hs375d
- b37
- humanG1Kv37
CHM13
目前最新的参考基因组版本,利用long-read seq技术与名为CHM13 的纯合的完全性葡萄胎(complete hydatidiform mole)的细胞系,T2T项目完成了人类第一个完整的参考基因组CHM13,该成果与其相关研究于2022年发表于Science上。
- 链接: https://github.com/marbl/CHM13
- 内容: chr1-22(CHM13),chrX(CHM13),chrY(NA24385),chrM(CHM13)
- 参考: Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., … & Phillippy, A. M. (2022). The complete sequence of a human genome. Science, 376(6588), 44-53.
GRCh38 / hg38
由基因组参考联合会 (Genome Reference Consortium)发布,正式名称为GRCh38(Genome Research Consortium human build 38),也被称为hg38(Human genome build 38, UCSC发布的版本),初版发布于2013年12月,特点是使用ALT contigs来代表常见的复杂变异,例如HLA loci.
GRCh38 (GRCh38.p14) 链接: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.40
UCSChg38 链接: https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/
该版本的组装主要包含:
- 组装的染色体:1-22号染色体(chr1-22),X(chrX),Y染色体(chrY),以及线粒体DNA(chrM)
- Unlocalized sequences :已知位于某一染色体上,但方向和位置未知, 该类序列有
_random后缀标注
- Unplaced sequences:未知染色体来源的序列,有
chrU_
前缀标注 - Aalternate loci/ALT contigs :
有 _alt
后缀标注,为某一区域可能的其他序列,表示这一区域的基因多样性
此外还包括:
- Pseudo-autosomal regions (PAR): XY染色体上的同源序列
- Homologous centromeric and genomic repeat arrays: 着丝粒 与 基因组重复序列(卫星DNA)
- EBV & decoys:EB病毒 与 诱饵序列等不能map到人类基因组的序列
GRCh37/ hg19
基因组参考联合会 (Genome Reference Consortium)于2009年2月发布的历史版本,近年发表文献多使用这一版本,但逐渐再向 GRCh38 过渡。
GRCh38 相比 GRCh37,修改了8000多错误的单核苷酸,纠正了若干错误组装的区域,填充了部分gap,新增了着丝粒(centromeres)的序列,并且大幅增加了alternate loci的数量。
University of California at Santa Cruz (UCSC) 于 2009 年 2 月发布的人类基因组组装hg19,与GRCh37序列基本相同,但具有不同的线粒体序列和其他替代的单倍型组装。对染色体的命名不同,为“1”,“2”。
GRCh37.p13 : https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.25
UCSC hg19: http://hgdownload.cse.ucsc.edu/goldenpath/hg19/bigZips/
hs37d5
在 千人基因组项目第二阶段 (1000 genome phase II) 中组装的参考基因组,来自Broad Institute,主要包括以下序列:
- GRCh37:Integrated reference sequence from the GRCh37 primary assembly (chromosomal plus unlocalized and unplaced contigs)
- rCRS 线粒体序列:The rCRS mitochondrial sequence (AC:NC_012920)
- 人疱疹病毒 4 型 1 类:Human herpesvirus 4 type 1 (AC:NC_007605)
- 级联诱饵序列的数据(名称的由来):Concatenated decoy sequences (hs37d5cs.fa.gz)
b37
在 千人基因组项目第一阶段 (1000 Genomes Project Phase I ) 中组装的参考基因组,由Broad Institute发布,该组装主要基于GRCh37,包括来自 GRCh37、rCRS 线粒体序列和人疱疹病毒 4 型 1 类的数据。
- 文件名: Homo_sapiens_assembly19.fasta
- 来源: the 1000 Genomes Project Phase I and III, Broad Institute
- URL : https://data.broadinstitute.org/snowman/hg19/
- 内容: 1…22,X,Y,MT, unlocalized sequences (GL000191.1 …), unplaced sequences(GL000211.1 …) , NC_007605
humanG1Kv37
- 文件名: human_g1k_v37.fasta
- 来源: the 1000 Genomes Project Phase I and III, Broad Institute
- URL : http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/
- 内容: 1…22,X,Y,MT, unlocalized sequences (GL000191.1 …), unplaced sequences(GL000211.1 …)
- 描述: no haplotype sequence or EBV (与b37相比,不包括NC_007605)
- 描述的URL: https://www.internationalgenome.org/category/assembly
参考资料:
https://gatk.broadinstitute.org/hc/en-us/articles/360035890711?id=23390
https://cloud.google.com/life-sciences/docs/resources/public-datasets/reference-genomes
https://www.sciencedirect.com/science/article/pii/S0888754317300058
One thought on “人类参考基因组 Human reference genome CHM13/hg19/hg38/GRCh37/GRCh38/b37/hs375d”