去哪找公开的GWAS数据 – Publicly Available GWAS Sumstats

目录

  1. 公共数据库
  2. 各大Biobank与Cohort
    • 欧美
    • 东亚
    • Global Biobank
  3. 单独的研究发表的数据
  4. 各类疾病研究组织的数据

本文将简要介绍可以简单入手的GWAS sumstats的一些来源,文中提及的来源都是公开可下载的,适合新入门的同学练手,做一些小规模的meta分析,或是post-gwas分析。

1.公共数据库:

目前收录最全的GWAS数据库,但只收录了已发表GWAS的数据,而且会有几个月到半年左右的延迟,使用时应该注意:

GWAS catalog: https://www.ebi.ac.uk/gwas/

OpenGWAS: https://gwas.mrcieu.ac.uk/

2.各大Biobank的公开数据:

规模较大的Biobank或Cohort会定期公开GWAS sumstats,这类数据有些未被收录在GWAS catalog中,一些gwas检验方法的作者也会使用其方法进行Biobank级别的GWAS分析,这类数据的表型覆盖较广:

2.1欧美:

Finngen 4 : https://r4.finngen.fi/about

Finngen 5 : https://r5.finngen.fi/about

Finngen 6 : https://r6.finngen.fi/about

UKB : https://pheweb.org/UKB-Neale/

UKB saige: https://pheweb.org/UKB-SAIGE/

UKB fastgwa-glmm: https://yanglab.westlake.edu.cn/resources/ukb_fastgwa/imp_binary/

UKB fastgwa: https://yanglab.westlake.edu.cn/resources/ukb_fastgwa/imp/

UKB TOPMed: https://pheweb.org/UKB-TOPMed/

UKB gene-based: https://genebass.org/

Pan-UKB : https://pan.ukbb.broadinstitute.org/

MGI 1 : https://pheweb.org/MGI-freeze1/

MGI 2 : https://pheweb.org/MGI-freeze2/

MGI BioUV: https://pheweb.org/MGI-BioVU/

FinMetSeq: https://pheweb.sph.umich.edu/FinMetSeq/

Generation Scotland: https://datashare.ed.ac.uk/handle/10283/844

2.2 东亚:

Biobank Japan:

JENGER: http://jenger.riken.jp/result

Pheweb: https://pheweb.jp/

ToMMo – JMorp:https://jmorp.megabank.tohoku.ac.jp/202109/gwas/

KoreanChip: https://www.koreanchip.org/downloads

KoGES Pheweb: https://koges.leelabsg.org/

2.3 全球范围Biobank的Meta分析:

近期Global Biobank项目也公开了一批全球范围biobank的常见复杂疾病meta分析

Global Biobank :http://results.globalbiobankmeta.org/

3.单独的研究发表的数据

直接在google上搜索研究论文,从Data availability里的url顺藤摸瓜找到数据,此类数据散落在各个学校,研究机构等等自家的网站上,没有好的办法,只有自己搜索。GWAS catalog 经常会出现收录不及时而漏掉很多最新数据。

例如:

Program in Complex Trait Genomics, IMB, The University of Queensland.

https://cnsgenomics.com/content/data

https://ctg.cncr.nl/software/summary_statistics

4.各类疾病研究组织的数据

这类数据通常为meta分析后的sumstats,例如:

DIAGRAM:http://www.diagram-consortium.org/downloads.html

Megastroke: https://www.megastroke.org/index.html

GIANT (Genetic Investigation of ANthropometric Traits):https://portals.broadinstitute.org/collaboration/giant/index.php/Main_Page

GLGC (Global Lipids Genetics Consortium):  http://csg.sph.umich.edu/willer/public/glgc-lipids2021/

PGC (Psychiatric Genomics Consortium): https://www.med.unc.edu/pgc/download-results/

等等

一个人的总结难免会有疏漏,欢迎大家在评论里补充!

Genebass 外显子组关联检验数据库

关键词: 外显子组, pLOF,UKBB,rare variants, gene-based analysis

本文目录:

1.背景
2.Genebass介绍
3.使用方法
4.参考

1.背景

目前为止大规模的GWAS研究已经成功的发现了大量的与人类疾病或表型相关的常见变异,但对于稀有变异与疾病的关联,我们目前还没有系统性的探索。生物银行规模的外显子组测序给我们提供了宝贵的机会以探索基因以及稀有编码变异对于人类表性的影响。UKBB的主要研究人员(Neale lab)利用UKBB的28万多人的外显子组测序数据,通过单核苷酸检验,与基因检验系统性地分析了3700种数量与二分类表型,并将数据公开在Genebass数据库中。

2.Genebass介绍:

Genebass数据集包含了3817种表型的基于基因与基于单变异检验的概括性数据,该数据库的概括性数据基于UK Biobank 28万1852人的外显子组测序数据。

检验方法使用的是基于线性混合模型,并校正case-control比例的SAIGE-GENE(预留链接,最近挖的坑有点多),包括了以下三种检验统计量:

  • 单变异检验 :single-variant tests
  • 基因负荷检验 :gene-based burden (mean)
  • SKAT-O检验 :SKAT-O (hybrid variance/mean) tests.

上述的检验基于以下的注释:

  • pLoF(predicted loss-of-function 功能缺失型)变异,包括被LOFTEE注释的高置信度的变异。
  • 类错义变异(missense-like variants),包括错义变异与被LOFTEE注释的低置信度的变异。
  • 同义变异 synonymous variants.

3.使用方法

Genebass主页链接:

可以在搜索框中输入想查询的基因,或想浏览的表型。

数据展示页面的布局:

以BMI为例:

在搜索框搜索BMI后,我们可以看到 Gene-based tests的概括性数据,曼哈顿图与QQ图。可以点击不同tab查看三种不同注释组的结果。

通过顶部的导航栏可以切换单变异或基因的数据,也可以调整面板的宽度:

切换到单变异检验的曼哈顿图:

在下方点击Variant ID / Gene Name后,还可以查看该变异或基因的PheWAS数据:

另外还可以查询该表型的详细信息:

Genebass还提供了数据库的下载链接:https://genebass.org/downloads

注意:需要通过Hail来加载数据:

Hail:https://hail.is/

4.参考

https://www.medrxiv.org/content/10.1101/2021.06.19.21259117v1

https://genebass.org/

LiftOver 基因组坐标变换

本文内容:

  1. liftover 简介与网页版工具
  2. liftover 命令行工具使用方法
  3. 基于0的坐标系统与基于1的坐标系统之间的转换

人类参考基因组不同版本之间基因坐标不同,进行研究时我们需要统一基因组坐标系,从一个版本的坐标系向另一个坐标系转换的过程就称之为liftover,UCSC,ensembl等为我们提供了便捷的工具,本文以 UCSC 的liftOver工具为例:

首先UCSC liftOver工具提供了即开即用的网页版:http://genome.ucsc.edu/cgi-bin/hgLiftOver

选择目标物种,新旧基因组版本,粘贴或上传原文件就可以开始liftover。


但更多时候我们需要使用命令行的工具,以下,本文主要介绍liftOver的命令行版本,下载地址:http://hgdownload.soe.ucsc.edu/downloads.html

liftover的url: http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/liftOver

下载完成后添加到环境路径中,并通过chmod +x 添加执行权限,然后在命令行中输入liftOver验证是否安装成功:(如果成功会有如下界面)

liftOver主要语法如下:

liftOver <输入文件> <chain文件> <输出文件> <unmapped文件>

input/output 可以使用bed格式文件chain file 则需要我们根据转化前后的数据库在ucsc上下载,无法转换的条目则输出到unmapped文件里。

这里以hg19->hg38为例,进行liftover,首先下载hg19tohg38的chain文件,下载地址为: http://hgdownload.soe.ucsc.edu/downloads.html#source_downloads

点击hg19的liftover files后下载对应文件:

下载完成后不需解压即可开始使用:

liftOver input.bed hg19ToHg38.over.chain output.bed unmapped.txt

input.bed

就转换成了: output.bed


在进行LiftOver时,有一点需要我们注意,那就是文件中变异位点起始的编号,是基于0还是基于1的。

因为 UCSC 使用基于0的坐标系统,而 Ensembl 等使用基于1的坐标系统 ,不同工具切换时应该注意这一不同。

除此以外,一些文件格式是基于1的(GFF, SAM , VCF),而另一些是基于0的(BED,BAM),不同文件间转换时也需要注意。

基于0和基于1的坐标系统示可以理解为:

基于1的坐标系:对核苷酸直接编号。

基于0的坐标系:对两个核苷酸之间的间隙编号。

enter image description here

在表示单核苷酸或多个核苷酸变异时,

基于1的坐标系:直接使用变异位点的编号。

基于0的坐标系:变异两边的位置作为起止。

enter image description here

表示insert或deletion时,

基于1的坐标系:Deletion直接使用相应位点编号,insertion则是插入位置两边的核苷酸编号。

基于0的坐标系: Deletion 是插入位置两边的间隙编号表示, Insertions 则直接由插入间隙的编号表示。

基于1的坐标系 与 基于0的坐标系 互相转换时,伪代码如下:

从 基于0的坐标系 向 基于1的坐标系 转换:

if (type=SNV){start=start+1; end=end;}
if (type=DEL){start=start+1; end=end;}
if (type=INS){start=start; end=end+1;}

从 基于1的坐标系 向 基于0的坐标系 转换:

if (type=SNV){start=start-1; end=end;}
if (type=DEL){start=start-1; end=end;}
if (type=INS){start=start; end=end-1;}

参考:

https://www.biostars.org/p/84686/

https://genome.ucsc.edu/cgi-bin/hgLiftOver

http://hgdownload.soe.ucsc.edu/downloads.html#liftover

gnomAD 数据库: The Genome Aggregation Database

一,数据库简介

gnomAD是目前收录范围最广的基因组变异数据库之一,包含了全世界各人种的变异数据。gnomAD 与有较长历史的dbSNP的主要不同点在于,dbSNP包括了通过各种各样研究方法不同的项目而发现的基因组变异,dbSNP对这些变异加以整理,给予ID,但 gnomAD 为了能够正确的算出等位的频率,对所纳入样本的二代测序数据进行了统一标准的解析,这是 gnomAD 的一大特点。另外,对于50bp以上的基因组结构变异, gnomAD 也有着较高质量的数据。

目前版本 gnomAD v3.1 所包含数据汇总如下:

PopulationDescriptionGenomes
afrAfrican/African-American20,744
amiAmish456
amrLatino/Admixed American7,647
asjAshkenazi Jewish1,736
easEast Asian2,604
finFinnish5,316
nfeNon-Finnish European34,029
midMiddle Eastern158
sasSouth Asian2,419
othOther (population not assigned)1,047

gnomAD 的前身是ExAC (Exome Aggregation Consortium), ExAC 只包含外显子组数据,目前已经被 gnomAD 取代。 gnomAD 的主要资助者是 the Broad Institute。

gnomAD的主页:

二,搜索基因

以ALDH1A1为例,页面最上端显示了基因的基本信息,右边Dataset处可以选择不同的subset(例如 non-cancer, non-neuro等等),Constraint处显示了synonymous,missense 以及 pLoF(基因丧失功能的可能性)的统计值,接下来的图标显示了每个部分的测序深度。

点击 show transcript 或者 show tissue也可以看到不同的transcript 或是在不同组织中的表达。

接下来是ClinVAr中收录的变异位点,与gnomAD中收录的位点的位置信息。

最后则是对变异位点的功能注释:

三,搜索变异

以ALDH2上的rs671为例,

我们可以找到该变异在数据库中的基本信息,包括频数,频率等,之后紧跟着对该变异的注释:

之后是该变异在ClinVar数据库中的信息:

然后是该变异在各群体中的详细的频率信息,以及年龄分布信息。

gnomAD还提供了该变异的质量信息。

最后还提供了便捷的浏览器,可以直观地在基因组中浏览该变异。

gnomAD内所有的信息均提供免费的下载服务,如果有需要也可以按需下载。

参考:

https://gnomad.broadinstitute.org/about

SNP数据库 – dbSNP

链接: https://www.ncbi.nlm.nih.gov/snp/

1.dbSNP简介

dbsnp是NCBI于1998年建立的主要存储单核苷酸多态性(SNP)的免费公共数据库。该数据库包含多种模式生物。虽然其名称为dbSNP,但该数据库实际上包括多种分子变异:

  • 单核苷酸多态性 SNP
  • 短缺失和插入多态性 short deletion and insertion polymorphisms (indels/DIPs)
  • 微卫星标记或短串联重复  microsatellite markers or short tandem repeats (STRs)
  • 多核苷酸多态性 multinucleotide polymorphisms (MNPs)
  • 杂合序列 heterozygous sequences
  • 命名变体 named variants
图1:dbSNP主页

2. 网页版dbsnp中的SNP信息 (本文使用新本界面,也可以切换回旧版):

首先是snp的基础信息,包括物种,位置,等位基因,变异类型,频率等等,

此处以rs671为例:

通过切换不同tab可以看到与该snp相关的其他详细信息

最后还可以在基因组浏览器的序列坐标中直观的看到该snp与相邻的其他snp等。


3. 通过FTP下载完整数据:

如果需要下载最新版本的dbsnp数据库则,进入latest_release中,下载bgzip压缩过的VCF文件以及相应的tabix索引

如果需要某个历史版本,则进入archive中,下载对应版本的数据。

参考文献:

GWAS Catalog 数据库

url : https://www.ebi.ac.uk/gwas/

GWAS catalog数据库于2008年由National Human Genome Research Institute (NHGRI)建立,旨在应对快速增长的全基因组关联分析(GWAS)数据。该数据库为我们检索已发表GWAS与显著相关提供了方便。

该数据库中主要包含了已发表GWAS的Summary statistics (人工审核录入,有一定延迟,大约发表后一到两个月内录入数据库)。截止2021年3月25日,GWAS catalog已经收录了4,961篇文献,包括251,401个相关。目前该数据库采用的参考基因组与SNP数据库为Genome Assembly GRCh38.p13 与 dbSNP Build 153。

图1:当前GWAS Catalog收录的所有相关SNP

已发表或未发表的GWAS Summary statistics都可通过GWAS catalog的FTP进行下载。

图2:已发表并有summary statistics的GWAS列表 (部分)

人类参考基因组 Human reference genome CHM13/hg19/hg38/GRCh37/GRCh38/b37/hs375d

本文基于 https://github.com/Cloufield/CTGCatalog/tree/main/Reference_data/Genome

目前使用较为广泛的人类参考基因组的版本有(20221011更新):

  • CHM13
  • GRCh38 / h38
  • GRCh37 / hg19
  • hs375d
  • b37
  • humanG1Kv37

CHM13

目前最新的参考基因组版本,利用long-read seq技术与名为CHM13 的纯合的完全性葡萄胎(complete hydatidiform mole)的细胞系,T2T项目完成了人类第一个完整的参考基因组CHM13,该成果与其相关研究于2022年发表于Science上。

  • 链接: https://github.com/marbl/CHM13
  • 内容: chr1-22(CHM13),chrX(CHM13),chrY(NA24385),chrM(CHM13)
  • 参考: Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., … & Phillippy, A. M. (2022). The complete sequence of a human genome. Science, 376(6588), 44-53.

GRCh38 / hg38

由基因组参考联合会 (Genome Reference Consortium)发布,正式名称为GRCh38(Genome Research Consortium human build 38),也被称为hg38(Human genome build 38, UCSC发布的版本),初版发布于2013年12月,特点是使用ALT contigs来代表常见的复杂变异,例如HLA loci.

GRCh38 (GRCh38.p14) 链接: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.40

UCSChg38 链接: https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

该版本的组装主要包含:

  • 组装的染色体:1-22号染色体(chr1-22),X(chrX),Y染色体(chrY),以及线粒体DNA(chrM)
  • Unlocalized sequences :已知位于某一染色体上,但方向和位置未知, 该类序列有_random后缀标注
  • Unplaced sequences:未知染色体来源的序列,有chrU_ 前缀标注
  • Aalternate loci/ALT contigs :有 _alt 后缀标注,为某一区域可能的其他序列,表示这一区域的基因多样性

此外还包括:

  • Pseudo-autosomal regions (PAR): XY染色体上的同源序列
  • Homologous centromeric and genomic repeat arrays: 着丝粒 与 基因组重复序列(卫星DNA)
  • EBV & decoys:EB病毒 与 诱饵序列等不能map到人类基因组的序列
GRCh38.p7的染色体图。放大的区域表示蓝色区域有大量的N。

GRCh37/ hg19

基因组参考联合会 (Genome Reference Consortium)于2009年2月发布的历史版本,近年发表文献多使用这一版本,但逐渐再向 GRCh38 过渡。

GRCh38 相比 GRCh37,修改了8000多错误的单核苷酸,纠正了若干错误组装的区域,填充了部分gap,新增了着丝粒(centromeres)的序列,并且大幅增加了alternate loci的数量。

University of California at Santa Cruz (UCSC) 于 2009 年 2 月发布的人类基因组组装hg19,与GRCh37序列基本相同,但具有不同的线粒体序列和其他替代的单倍型组装。对染色体的命名不同,为“1”,“2”。

GRCh37.p13 : https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.25

UCSC hg19: http://hgdownload.cse.ucsc.edu/goldenpath/hg19/bigZips/


hs37d5

在 千人基因组项目第二阶段 (1000 genome phase II) 中组装的参考基因组,来自Broad Institute,主要包括以下序列:

  • GRCh37:Integrated reference sequence from the GRCh37 primary assembly (chromosomal plus unlocalized and unplaced contigs)
  • rCRS 线粒体序列:The rCRS mitochondrial sequence (AC:NC_012920)
  • 人疱疹病毒 4 型 1 类:Human herpesvirus 4 type 1 (AC:NC_007605)
  • 级联诱饵序列的数据(名称的由来):Concatenated decoy sequences (hs37d5cs.fa.gz)

b37

在 千人基因组项目第一阶段 (1000 Genomes Project Phase I ) 中组装的参考基因组,由Broad Institute发布,该组装主要基于GRCh37,包括来自 GRCh37、rCRS 线粒体序列和人疱疹病毒 4 型 1 类的数据。

  • 文件名: Homo_sapiens_assembly19.fasta
  • 来源: the 1000 Genomes Project Phase I and III, Broad Institute
  • URL : https://data.broadinstitute.org/snowman/hg19/
  • 内容: 1…22,X,Y,MT, unlocalized sequences (GL000191.1 …), unplaced sequences(GL000211.1 …) , NC_007605

humanG1Kv37

参考资料:

https://gatk.broadinstitute.org/hc/en-us/articles/360035890711?id=23390

https://cloud.google.com/life-sciences/docs/resources/public-datasets/reference-genomes

https://www.sciencedirect.com/science/article/pii/S0888754317300058