多基因风险分数 PRS( Polygenic risk score)系列之八:PGS Catalog

本文内容

  1. PGS Catalog 简介
  2. PGS Catalog的纳入标准
  3. 从PGS Catalog寻找PGS
  4. PGS分数文件格式与下载
  5. 下载PGS后使用PLINK计算PGS
  6. 参考

回顾

PGS Catalog 简介

本文简要介绍PGS Catalog的基本信息与使用方法。该数据库对于未来的PGS相关研究可以说是必不可少的,或多或少都需要通过此数据库查询,下载已有的PGS或上传自己的PGS模型。

与 GWAS catalog 类似, PGS Catalog 是一个已发表多基因风险分数 (polygenic scores)的公开数据库。在PGS Catalog中的每个PGS都被统一地标注了相关的元信息:包括分数文件(variants, effect alleles/weights),PGS如何构建与应用的注释,以及其预测表现的评价等。PGS对应的表型会被连接到相应的EFO(Experimental Factor Ontology,https://www.ebi.ac.uk/efo/)以保持研究间的统一(GWAS catalog 也使用EFO)。

PGS Catalog旨在对PGS构建索引,并以标准化的形式分发每个PGS的关键信息(variants,结果,实验设计等),以促进对PGS分析有效性的评价。

该数据库由剑桥大学Michael Inouye(在推上很活跃的大佬,建议关注)组的Samuel Lambert与HDR UK及NHGRI-EBI (GWAS Catalog)合作开发。

PGS Catalog 的主页

PGS Catalog的纳入标准

纳入PGSCatalog的标准主要有两大块:

  1. 新近开发的PGS,包含其分数与预测能力的必要基础信息 (需要在独立样本中评估
  2. 对已开发的PGS在新的群体中进行评估。

纳入后每一个PGS都被赋予了识别编号, 例如 PGS000001

从PGS Catalog寻找PGS

查询PGS时, 可以通过搜索框直接搜索关键词查询PGS,或是通过表型,发表的文献等方式浏览数据库中的PGS.

以breast cancer 为例,查询后可以看到数据库中目前有112个乳腺癌相关的PGS:

点击后,可以查看这些PGS的汇总信息:

可以通过ancestry对PGS进行过滤,列表中的ancestry distribution表示的是,所用样本群体中各个族裔的构成。

选取感兴趣的PGS后,可以点击进入查看详细信息,或是直接下载PGS模型文件。

每个PGS的页面包括了PGS的详细信息,构建方法与参数,原始GWAS数据,评价指标,评价时所用样本信息等等。

PGS分数文件格式与下载

PGS Catalog数据库中的文件格式说明可以参考:https://www.pgscatalog.org/downloads/

如下所示,Scoring File Format由两部分组成,header和数据。

Header部分主要为该文件版本信息,PGS的基础信息,以及原始研究的信息,数据部分则包括了variant和计算PGS的allele与权重,大多可以来直接使用。

###PGS CATALOG SCORING FILE - see <https://www.pgscatalog.org/downloads/#dl_ftp_scoring> for additional information
#format_version=2.0
##POLYGENIC SCORE (PGS) INFORMATION
#pgs_id=PGS000001
#pgs_name=PRS77_BC
#trait_reported=Breast Cancer
#trait_mapped=breast carcinoma
#trait_efo=EFO_0000305
#weight_type=NR
#genome_build=NR
#variants_number=77
##SOURCE INFORMATION
#pgp_id=PGP000001
#citation=Mavaddat N et al. J Natl Cancer Inst (2015). doi:10.1093/jnci/djv036
rsID	chr_name	effect_allele	other_allele	effect_weight	locus_name	OR
rs78540526	11	T	C	0.16220387987485377	CCND1	1.1761
...

下载PGS后使用PLINK计算PGS

确认基因组版本等信息无误后,结合手头的基因型数据,可以通过PLINK来计算PGS。(与手头基因型文件的variant ID不一致时需要重新匹配)

https://www.cog-genomics.org/plink/2.0/scoreGWASLab:多基因风险分数 PRS( Polygenic risk score)系列之二:使用PLINK计算PRS(C+T方法)的后半部分介绍了计算方法。

plink2 --score <filename> [i] [j] [k] [{header | header-read}]
                   [{center | variance-standardize | dominant | recessive}]
                   ['no-mean-imputation'] ['se'] ['zs'] ['ignore-dup-ids']
                   [{list-variants | list-variants-zs}]
                   ['cols='<column set descriptor>]

需要注意的是,有时我们手里的插补后的dosage文件是分染色体的,而PGS模型文件通常包括所有染色体上的variants,这种情况下一般需要分染色体进行计算单纯的分数加和 (使用—score里的cols=+scoresums 选项),然后再把22条染色体的分数再次加和算得总分数。

PLINK2 score的输出文件表头

Header	Column set	Contents
FID	maybefid, fid	Family ID
IID	(required)	Individual ID
SID	maybesid, sid	Source ID
PHENO1	pheno1	All-missing phenotype column, if none loaded
<Pheno name>, ...	pheno1, phenos	Phenotype value(s) (only first if just 'pheno1')
ALLELE_CT	nallele	Number of alleles across scored variants
DENOM	denom	Denominator used for score average
NAMED_ALLELE_DOSAGE_SUM	dosagesum	Sum of named allele dosages
<Score name>_AVG, ...	scoreavgs	Score averages
<Score name>_SUM, ...	scoresums	Score sums #分染色体时使用这一列求和

参考

https://www.pgscatalog.org/

Samuel A. Lambert, Laurent Gil, Simon Jupp, Scott C. Ritchie, Yu Xu, Annalisa Buniello, Aoife McMahon, Gad Abraham, Michael Chapman, Helen Parkinson, John Danesh, Jacqueline A. L. MacArthur and Michael Inouye.

The Polygenic Score Catalog as an open database for reproducibility and systematic evaluation

Nature Geneticsdoi: 10.1038/s41588-021-00783-5 (2021).

https://www.ebi.ac.uk/efo/

One thought on “多基因风险分数 PRS( Polygenic risk score)系列之八:PGS Catalog”

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s