多基因风险分数 PRS( Polygenic risk score)系列之八:PGS Catalog

本文内容

  1. PGS Catalog 简介
  2. PGS Catalog的纳入标准
  3. 从PGS Catalog寻找PGS
  4. PGS分数文件格式与下载
  5. 下载PGS后使用PLINK计算PGS
  6. 参考

回顾

PGS Catalog 简介

本文简要介绍PGS Catalog的基本信息与使用方法。该数据库对于未来的PGS相关研究可以说是必不可少的,或多或少都需要通过此数据库查询,下载已有的PGS或上传自己的PGS模型。

与 GWAS catalog 类似, PGS Catalog 是一个已发表多基因风险分数 (polygenic scores)的公开数据库。在PGS Catalog中的每个PGS都被统一地标注了相关的元信息:包括分数文件(variants, effect alleles/weights),PGS如何构建与应用的注释,以及其预测表现的评价等。PGS对应的表型会被连接到相应的EFO(Experimental Factor Ontology,https://www.ebi.ac.uk/efo/)以保持研究间的统一(GWAS catalog 也使用EFO)。

PGS Catalog旨在对PGS构建索引,并以标准化的形式分发每个PGS的关键信息(variants,结果,实验设计等),以促进对PGS分析有效性的评价。

该数据库由剑桥大学Michael Inouye(在推上很活跃的大佬,建议关注)组的Samuel Lambert与HDR UK及NHGRI-EBI (GWAS Catalog)合作开发。

PGS Catalog 的主页

PGS Catalog的纳入标准

纳入PGSCatalog的标准主要有两大块:

  1. 新近开发的PGS,包含其分数与预测能力的必要基础信息 (需要在独立样本中评估
  2. 对已开发的PGS在新的群体中进行评估。

纳入后每一个PGS都被赋予了识别编号, 例如 PGS000001

从PGS Catalog寻找PGS

查询PGS时, 可以通过搜索框直接搜索关键词查询PGS,或是通过表型,发表的文献等方式浏览数据库中的PGS.

以breast cancer 为例,查询后可以看到数据库中目前有112个乳腺癌相关的PGS:

点击后,可以查看这些PGS的汇总信息:

可以通过ancestry对PGS进行过滤,列表中的ancestry distribution表示的是,所用样本群体中各个族裔的构成。

选取感兴趣的PGS后,可以点击进入查看详细信息,或是直接下载PGS模型文件。

每个PGS的页面包括了PGS的详细信息,构建方法与参数,原始GWAS数据,评价指标,评价时所用样本信息等等。

PGS分数文件格式与下载

PGS Catalog数据库中的文件格式说明可以参考:https://www.pgscatalog.org/downloads/

如下所示,Scoring File Format由两部分组成,header和数据。

Header部分主要为该文件版本信息,PGS的基础信息,以及原始研究的信息,数据部分则包括了variant和计算PGS的allele与权重,大多可以来直接使用。

###PGS CATALOG SCORING FILE - see <https://www.pgscatalog.org/downloads/#dl_ftp_scoring> for additional information
#format_version=2.0
##POLYGENIC SCORE (PGS) INFORMATION
#pgs_id=PGS000001
#pgs_name=PRS77_BC
#trait_reported=Breast Cancer
#trait_mapped=breast carcinoma
#trait_efo=EFO_0000305
#weight_type=NR
#genome_build=NR
#variants_number=77
##SOURCE INFORMATION
#pgp_id=PGP000001
#citation=Mavaddat N et al. J Natl Cancer Inst (2015). doi:10.1093/jnci/djv036
rsID	chr_name	effect_allele	other_allele	effect_weight	locus_name	OR
rs78540526	11	T	C	0.16220387987485377	CCND1	1.1761
...

下载PGS后使用PLINK计算PGS

确认基因组版本等信息无误后,结合手头的基因型数据,可以通过PLINK来计算PGS。(与手头基因型文件的variant ID不一致时需要重新匹配)

https://www.cog-genomics.org/plink/2.0/scoreGWASLab:多基因风险分数 PRS( Polygenic risk score)系列之二:使用PLINK计算PRS(C+T方法)的后半部分介绍了计算方法。

plink2 --score <filename> [i] [j] [k] [{header | header-read}]
                   [{center | variance-standardize | dominant | recessive}]
                   ['no-mean-imputation'] ['se'] ['zs'] ['ignore-dup-ids']
                   [{list-variants | list-variants-zs}]
                   ['cols='<column set descriptor>]

需要注意的是,有时我们手里的插补后的dosage文件是分染色体的,而PGS模型文件通常包括所有染色体上的variants,这种情况下一般需要分染色体进行计算单纯的分数加和 (使用—score里的cols=+scoresums 选项),然后再把22条染色体的分数再次加和算得总分数。

PLINK2 score的输出文件表头

Header	Column set	Contents
FID	maybefid, fid	Family ID
IID	(required)	Individual ID
SID	maybesid, sid	Source ID
PHENO1	pheno1	All-missing phenotype column, if none loaded
<Pheno name>, ...	pheno1, phenos	Phenotype value(s) (only first if just 'pheno1')
ALLELE_CT	nallele	Number of alleles across scored variants
DENOM	denom	Denominator used for score average
NAMED_ALLELE_DOSAGE_SUM	dosagesum	Sum of named allele dosages
<Score name>_AVG, ...	scoreavgs	Score averages
<Score name>_SUM, ...	scoresums	Score sums #分染色体时使用这一列求和

参考

https://www.pgscatalog.org/

Samuel A. Lambert, Laurent Gil, Simon Jupp, Scott C. Ritchie, Yu Xu, Annalisa Buniello, Aoife McMahon, Gad Abraham, Michael Chapman, Helen Parkinson, John Danesh, Jacqueline A. L. MacArthur and Michael Inouye.

The Polygenic Score Catalog as an open database for reproducibility and systematic evaluation

Nature Geneticsdoi: 10.1038/s41588-021-00783-5 (2021).

https://www.ebi.ac.uk/efo/

去哪找公开的GWAS数据 – Publicly Available GWAS Sumstats

目录

  1. 公共数据库
  2. 各大Biobank与Cohort
    • 欧美
    • 东亚
    • Global Biobank
  3. 单独的研究发表的数据
  4. 各类疾病研究组织的数据

本文将简要介绍可以简单入手的GWAS sumstats的一些来源,文中提及的来源都是公开可下载的,适合新入门的同学练手,做一些小规模的meta分析,或是post-gwas分析。

1.公共数据库:

目前收录最全的GWAS数据库,但只收录了已发表GWAS的数据,而且会有几个月到半年左右的延迟,使用时应该注意:

GWAS catalog: https://www.ebi.ac.uk/gwas/

OpenGWAS: https://gwas.mrcieu.ac.uk/

2.各大Biobank的公开数据:

规模较大的Biobank或Cohort会定期公开GWAS sumstats,这类数据有些未被收录在GWAS catalog中,一些gwas检验方法的作者也会使用其方法进行Biobank级别的GWAS分析,这类数据的表型覆盖较广:

2.1欧美:

Finngen 4 : https://r4.finngen.fi/about

Finngen 5 : https://r5.finngen.fi/about

Finngen 6 : https://r6.finngen.fi/about

UKB : https://pheweb.org/UKB-Neale/

UKB saige: https://pheweb.org/UKB-SAIGE/

UKB fastgwa-glmm: https://yanglab.westlake.edu.cn/resources/ukb_fastgwa/imp_binary/

UKB fastgwa: https://yanglab.westlake.edu.cn/resources/ukb_fastgwa/imp/

UKB TOPMed: https://pheweb.org/UKB-TOPMed/

UKB gene-based: https://genebass.org/

Pan-UKB : https://pan.ukbb.broadinstitute.org/

MGI 1 : https://pheweb.org/MGI-freeze1/

MGI 2 : https://pheweb.org/MGI-freeze2/

MGI BioUV: https://pheweb.org/MGI-BioVU/

FinMetSeq: https://pheweb.sph.umich.edu/FinMetSeq/

Generation Scotland: https://datashare.ed.ac.uk/handle/10283/844

2.2 东亚:

Biobank Japan:

JENGER: http://jenger.riken.jp/result

Pheweb: https://pheweb.jp/

ToMMo – JMorp:https://jmorp.megabank.tohoku.ac.jp/202109/gwas/

KoreanChip: https://www.koreanchip.org/downloads

KoGES Pheweb: https://koges.leelabsg.org/

2.3 全球范围Biobank的Meta分析:

近期Global Biobank项目也公开了一批全球范围biobank的常见复杂疾病meta分析

Global Biobank :http://results.globalbiobankmeta.org/

3.单独的研究发表的数据

直接在google上搜索研究论文,从Data availability里的url顺藤摸瓜找到数据,此类数据散落在各个学校,研究机构等等自家的网站上,没有好的办法,只有自己搜索。GWAS catalog 经常会出现收录不及时而漏掉很多最新数据。

例如:

Program in Complex Trait Genomics, IMB, The University of Queensland.

https://cnsgenomics.com/content/data

https://ctg.cncr.nl/software/summary_statistics

4.各类疾病研究组织的数据

这类数据通常为meta分析后的sumstats,例如:

DIAGRAM:http://www.diagram-consortium.org/downloads.html

Megastroke: https://www.megastroke.org/index.html

GIANT (Genetic Investigation of ANthropometric Traits):https://portals.broadinstitute.org/collaboration/giant/index.php/Main_Page

GLGC (Global Lipids Genetics Consortium):  http://csg.sph.umich.edu/willer/public/glgc-lipids2021/

PGC (Psychiatric Genomics Consortium): https://www.med.unc.edu/pgc/download-results/

等等

一个人的总结难免会有疏漏,欢迎大家在评论里补充!

Genebass 外显子组关联检验数据库

关键词: 外显子组, pLOF,UKBB,rare variants, gene-based analysis

本文目录:

1.背景
2.Genebass介绍
3.使用方法
4.参考

1.背景

目前为止大规模的GWAS研究已经成功的发现了大量的与人类疾病或表型相关的常见变异,但对于稀有变异与疾病的关联,我们目前还没有系统性的探索。生物银行规模的外显子组测序给我们提供了宝贵的机会以探索基因以及稀有编码变异对于人类表性的影响。UKBB的主要研究人员(Neale lab)利用UKBB的28万多人的外显子组测序数据,通过单核苷酸检验,与基因检验系统性地分析了3700种数量与二分类表型,并将数据公开在Genebass数据库中。

2.Genebass介绍:

Genebass数据集包含了3817种表型的基于基因与基于单变异检验的概括性数据,该数据库的概括性数据基于UK Biobank 28万1852人的外显子组测序数据。

检验方法使用的是基于线性混合模型,并校正case-control比例的SAIGE-GENE(预留链接,最近挖的坑有点多),包括了以下三种检验统计量:

  • 单变异检验 :single-variant tests
  • 基因负荷检验 :gene-based burden (mean)
  • SKAT-O检验 :SKAT-O (hybrid variance/mean) tests.

上述的检验基于以下的注释:

  • pLoF(predicted loss-of-function 功能缺失型)变异,包括被LOFTEE注释的高置信度的变异。
  • 类错义变异(missense-like variants),包括错义变异与被LOFTEE注释的低置信度的变异。
  • 同义变异 synonymous variants.

3.使用方法

Genebass主页链接:

可以在搜索框中输入想查询的基因,或想浏览的表型。

数据展示页面的布局:

以BMI为例:

在搜索框搜索BMI后,我们可以看到 Gene-based tests的概括性数据,曼哈顿图与QQ图。可以点击不同tab查看三种不同注释组的结果。

通过顶部的导航栏可以切换单变异或基因的数据,也可以调整面板的宽度:

切换到单变异检验的曼哈顿图:

在下方点击Variant ID / Gene Name后,还可以查看该变异或基因的PheWAS数据:

另外还可以查询该表型的详细信息:

Genebass还提供了数据库的下载链接:https://genebass.org/downloads

注意:需要通过Hail来加载数据:

Hail:https://hail.is/

4.参考

https://www.medrxiv.org/content/10.1101/2021.06.19.21259117v1

https://genebass.org/

gnomAD 数据库: The Genome Aggregation Database

一,数据库简介

gnomAD是目前收录范围最广的基因组变异数据库之一,包含了全世界各人种的变异数据。gnomAD 与有较长历史的dbSNP的主要不同点在于,dbSNP包括了通过各种各样研究方法不同的项目而发现的基因组变异,dbSNP对这些变异加以整理,给予ID,但 gnomAD 为了能够正确的算出等位的频率,对所纳入样本的二代测序数据进行了统一标准的解析,这是 gnomAD 的一大特点。另外,对于50bp以上的基因组结构变异, gnomAD 也有着较高质量的数据。

目前版本 gnomAD v3.1 所包含数据汇总如下:

PopulationDescriptionGenomes
afrAfrican/African-American20,744
amiAmish456
amrLatino/Admixed American7,647
asjAshkenazi Jewish1,736
easEast Asian2,604
finFinnish5,316
nfeNon-Finnish European34,029
midMiddle Eastern158
sasSouth Asian2,419
othOther (population not assigned)1,047

gnomAD 的前身是ExAC (Exome Aggregation Consortium), ExAC 只包含外显子组数据,目前已经被 gnomAD 取代。 gnomAD 的主要资助者是 the Broad Institute。

gnomAD的主页:

二,搜索基因

以ALDH1A1为例,页面最上端显示了基因的基本信息,右边Dataset处可以选择不同的subset(例如 non-cancer, non-neuro等等),Constraint处显示了synonymous,missense 以及 pLoF(基因丧失功能的可能性)的统计值,接下来的图标显示了每个部分的测序深度。

点击 show transcript 或者 show tissue也可以看到不同的transcript 或是在不同组织中的表达。

接下来是ClinVAr中收录的变异位点,与gnomAD中收录的位点的位置信息。

最后则是对变异位点的功能注释:

三,搜索变异

以ALDH2上的rs671为例,

我们可以找到该变异在数据库中的基本信息,包括频数,频率等,之后紧跟着对该变异的注释:

之后是该变异在ClinVar数据库中的信息:

然后是该变异在各群体中的详细的频率信息,以及年龄分布信息。

gnomAD还提供了该变异的质量信息。

最后还提供了便捷的浏览器,可以直观地在基因组中浏览该变异。

gnomAD内所有的信息均提供免费的下载服务,如果有需要也可以按需下载。

参考:

https://gnomad.broadinstitute.org/about

SNP数据库 – dbSNP

链接: https://www.ncbi.nlm.nih.gov/snp/

1.dbSNP简介

dbsnp是NCBI于1998年建立的主要存储单核苷酸多态性(SNP)的免费公共数据库。该数据库包含多种模式生物。虽然其名称为dbSNP,但该数据库实际上包括多种分子变异:

  • 单核苷酸多态性 SNP
  • 短缺失和插入多态性 short deletion and insertion polymorphisms (indels/DIPs)
  • 微卫星标记或短串联重复  microsatellite markers or short tandem repeats (STRs)
  • 多核苷酸多态性 multinucleotide polymorphisms (MNPs)
  • 杂合序列 heterozygous sequences
  • 命名变体 named variants
图1:dbSNP主页

2. 网页版dbsnp中的SNP信息 (本文使用新本界面,也可以切换回旧版):

首先是snp的基础信息,包括物种,位置,等位基因,变异类型,频率等等,

此处以rs671为例:

通过切换不同tab可以看到与该snp相关的其他详细信息

最后还可以在基因组浏览器的序列坐标中直观的看到该snp与相邻的其他snp等。


3. 通过FTP下载完整数据:

如果需要下载最新版本的dbsnp数据库则,进入latest_release中,下载bgzip压缩过的VCF文件以及相应的tabix索引

如果需要某个历史版本,则进入archive中,下载对应版本的数据。

参考文献: