本文内容:
回顾:
- 多基因风险分数 PRS( Polygenic risk score)系列之一:概念入门
- 多基因风险分数 PRS( Polygenic risk score)系列之二:使用PLINK计算PRS(C+T方法)
- 多基因风险分数 PRS( Polygenic risk score)系列之三:使用PRSice计算PRS(C+T方法)
- 多基因风险分数 PRS( Polygenic risk score)系列之五:使用PRS-CS计算PRS(beta-shrinkage方法)
- 多基因风险分数 PRS( Polygenic risk score)系列之六:metaGRS介绍
- 多基因风险分数 PRS( Polygenic risk score)系列之七:Pathway-based PRS 通路PRS
PGS Catalog 简介
本文简要介绍PGS Catalog的基本信息与使用方法。该数据库对于未来的PGS相关研究可以说是必不可少的,或多或少都需要通过此数据库查询,下载已有的PGS或上传自己的PGS模型。
与 GWAS catalog 类似, PGS Catalog 是一个已发表多基因风险分数 (polygenic scores)的公开数据库。在PGS Catalog中的每个PGS都被统一地标注了相关的元信息:包括分数文件(variants, effect alleles/weights),PGS如何构建与应用的注释,以及其预测表现的评价等。PGS对应的表型会被连接到相应的EFO(Experimental Factor Ontology,https://www.ebi.ac.uk/efo/)以保持研究间的统一(GWAS catalog 也使用EFO)。
PGS Catalog旨在对PGS构建索引,并以标准化的形式分发每个PGS的关键信息(variants,结果,实验设计等),以促进对PGS分析有效性的评价。
该数据库由剑桥大学Michael Inouye(在推上很活跃的大佬,建议关注)组的Samuel Lambert与HDR UK及NHGRI-EBI (GWAS Catalog)合作开发。
PGS Catalog 的主页

PGS Catalog的纳入标准
纳入PGSCatalog的标准主要有两大块:
- 新近开发的PGS,包含其分数与预测能力的必要基础信息 (需要在独立样本中评估)
- 对已开发的PGS在新的群体中进行评估。
纳入后每一个PGS都被赋予了识别编号, 例如 PGS000001
从PGS Catalog寻找PGS
查询PGS时, 可以通过搜索框直接搜索关键词查询PGS,或是通过表型,发表的文献等方式浏览数据库中的PGS.

以breast cancer 为例,查询后可以看到数据库中目前有112个乳腺癌相关的PGS:

点击后,可以查看这些PGS的汇总信息:

可以通过ancestry对PGS进行过滤,列表中的ancestry distribution表示的是,所用样本群体中各个族裔的构成。
选取感兴趣的PGS后,可以点击进入查看详细信息,或是直接下载PGS模型文件。
每个PGS的页面包括了PGS的详细信息,构建方法与参数,原始GWAS数据,评价指标,评价时所用样本信息等等。


PGS分数文件格式与下载

PGS Catalog数据库中的文件格式说明可以参考:https://www.pgscatalog.org/downloads/
如下所示,Scoring File Format由两部分组成,header和数据。
Header部分主要为该文件版本信息,PGS的基础信息,以及原始研究的信息,数据部分则包括了variant和计算PGS的allele与权重,大多可以来直接使用。
###PGS CATALOG SCORING FILE - see <https://www.pgscatalog.org/downloads/#dl_ftp_scoring> for additional information
#format_version=2.0
##POLYGENIC SCORE (PGS) INFORMATION
#pgs_id=PGS000001
#pgs_name=PRS77_BC
#trait_reported=Breast Cancer
#trait_mapped=breast carcinoma
#trait_efo=EFO_0000305
#weight_type=NR
#genome_build=NR
#variants_number=77
##SOURCE INFORMATION
#pgp_id=PGP000001
#citation=Mavaddat N et al. J Natl Cancer Inst (2015). doi:10.1093/jnci/djv036
rsID chr_name effect_allele other_allele effect_weight locus_name OR
rs78540526 11 T C 0.16220387987485377 CCND1 1.1761
...
下载PGS后使用PLINK计算PGS
确认基因组版本等信息无误后,结合手头的基因型数据,可以通过PLINK来计算PGS。(与手头基因型文件的variant ID不一致时需要重新匹配)
https://www.cog-genomics.org/plink/2.0/score 或 GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之二:使用PLINK计算PRS(C+T方法)的后半部分介绍了计算方法。
plink2 --score <filename> [i] [j] [k] [{header | header-read}]
[{center | variance-standardize | dominant | recessive}]
['no-mean-imputation'] ['se'] ['zs'] ['ignore-dup-ids']
[{list-variants | list-variants-zs}]
['cols='<column set descriptor>]
需要注意的是,有时我们手里的插补后的dosage文件是分染色体的,而PGS模型文件通常包括所有染色体上的variants,这种情况下一般需要分染色体进行计算单纯的分数加和 (使用—score
里的cols=+scoresums
选项),然后再把22条染色体的分数再次加和算得总分数。
PLINK2 score的输出文件表头
Header Column set Contents
FID maybefid, fid Family ID
IID (required) Individual ID
SID maybesid, sid Source ID
PHENO1 pheno1 All-missing phenotype column, if none loaded
<Pheno name>, ... pheno1, phenos Phenotype value(s) (only first if just 'pheno1')
ALLELE_CT nallele Number of alleles across scored variants
DENOM denom Denominator used for score average
NAMED_ALLELE_DOSAGE_SUM dosagesum Sum of named allele dosages
<Score name>_AVG, ... scoreavgs Score averages
<Score name>_SUM, ... scoresums Score sums #分染色体时使用这一列求和
参考
Samuel A. Lambert, Laurent Gil, Simon Jupp, Scott C. Ritchie, Yu Xu, Annalisa Buniello, Aoife McMahon, Gad Abraham, Michael Chapman, Helen Parkinson, John Danesh, Jacqueline A. L. MacArthur and Michael Inouye.
The Polygenic Score Catalog as an open database for reproducibility and systematic evaluation
Nature Geneticsdoi: 10.1038/s41588-021-00783-5 (2021).
One thought on “多基因风险分数 PRS( Polygenic risk score)系列之八:PGS Catalog”