多基因风险分数 PRS( Polygenic risk score)系列之十: PRS-CSx 跨祖先PRS的构建

本文内容:

  1. PRS-CSx简介
  2. PRS-CSx使用方法
  3. PRScsx实例应用
  4. 参考

回顾

  1. GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之一:概念入门
  2. GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之二:使用PLINK计算PRS(C+T方法)
  3. GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之三:使用PRSice计算PRS(C+T方法)
  4. ldpred
  5. GWASLab:多基因风险分数 PRS(Polygenic risk score)系列之五:使用PRS-CS计算PRS(beta-shrinkage方法)
  6. GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之六:metaGRS介绍
  7. GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之七:Pathway-based PRS 通路PRS
  8. GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之八:PGS Catalog 数据库
  9. GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之九: 使用PLINK2分染色体计算PRS并加和

PRS-CSx简介

先前的文章中介绍了PRS研究中的一大问题便是在A群体中的构建的PRS难以直接转移应用到B群体中。为了解决这一问题,Yunfeng Ruan等人开发了PRS-CSx。

PRS-CSx是一个贝叶斯多基因模型构建与预测的框架,通过整合多个族裔的GWAS概括性统计数据来提升跨群体PRS的预测能力。该方法为PRS-CS的扩展 (参考:GWASLab:多基因风险分数 PRS(Polygenic risk score)系列之五:使用PRS-CS计算PRS(beta-shrinkage方法))。

原理上,PRS-CSx利用了一个共同的连续收缩先验分布来整合各个群体中SNP的效应,该方法通过在GWAS概括性统计数据之间共享先验分布,利用不同群体间的LD信息,来达到更准确的效应估计量。这个共享的先验分布考虑到了效应估计量在不同群体中相互关联但又存在差异的特点,保持了模型框架的灵活性。

PRS-CSx使用的先验分布 其中全局与局部收缩系数不随群体k变化

给定GWAS概括性统计数据,以及相应群体的LD参考面板,PRS-CSx可以对每个群体计算分别的PRS,并通过最优线性组合来得出最终的PRS.

PRS-CSx使用方法

https://github.com/getian107/PRScsx

PRScsx是一个基于Python的命令行工具,需要安装scipy与h5py这两个依赖包。从github上下载PRS-CSx:

git clone https://github.com/getian107/PRScsx.git

LD 参考面板与 PRS-CS 所使用文件相同 (参考:GWASLab:多基因风险分数 PRS(Polygenic risk score)系列之五:使用PRS-CS计算PRS(beta-shrinkage方法))。

下载链接(国内可用的FTP):https://personal.broadinstitute.org/hhuang//public//PRS-CSx/Reference

记得同时下载对应面板的snp list:snpinfo_mult_1kg_hm3 (1kg),或是 snpinfo_mult_ukbb_hm3(ukbb)

选项

python PRScsx.py \
--ref_dir=PATH_TO_REFERENCE \
--bim_prefix=VALIDATION_BIM_PREFIX \
--sst_file=SUM_STATS_FILE \
--n_gwas=GWAS_SAMPLE_SIZE \
--pop=POPULATION \
--out_dir=OUTPUT_DIR \
--out_name=OUTPUT_FILE_PREFIX \
--a=PARAM_A \
--b=PARAM_B \
--phi=PARAM_PHI \
--n_iter=MCMC_ITERATIONS \
--n_burnin=MCMC_BURNIN \
--thin=MCMC_THINNING_FACTOR \
--chrom=CHROM \
--meta=META_FLAG \
--seed=SEED

必须的参数:

  • PATH_TO_REFERENCE:LD参考面板的路径,路径下应包含相应群体的参考面板以及snp list. 例如,纳入群体为EUR以及EAS,指定路径为:./ldref ,那么该路径下应该有 ldblk_1kg_eas,ldblk_1kg_eur 这两个文件夹, 以及snpinfo_mult_1kg_hm3这个文件。
  • VALIDATION_BIM_PREFIX:目标数据集的bim文件。
  • SUM_STATS_FILE:sumstats的完整路径,由逗号分隔。
  • GWAS_SAMPLE_SIZE:sumstats的样本量大小,由逗号分隔,顺序与SUM_STATS_FILE一致。
  • POPULATION:对应的群体,可以为 AFR, AMR, EAS, EUR, SAS,由逗号分隔,顺序与SUM_STATS_FILE一致。
  • OUTPUT_DIR: 输出的路径
  • OUTPUT_FILE_PREFIX:输出文件前缀

其余为可选参数:

META_FLAG : 如果为True,则输出inverse-variance-weighted meta-analysis of the population-specific posterior effect size estimates。

PARAM_A, PARAM_B, PARAM_PHI,MCMC_ITERATIONS,MCMC_BURNIN,MCMC_BURNIN,SEED与CHROM 使用方法与PRScs一致。(参考:GWASLab:多基因风险分数 PRS(Polygenic risk score)系列之五:使用PRS-CS计算PRS(beta-shrinkage方法)

示例代码

python PRScsx.py \
--ref_dir=path_to_ref \
--bim_prefix=path_to_bim/test \
--sst_file=path_to_sumstats/EUR_sumstats.txt,path_to_sumstats/EAS_sumstats.txt \
--n_gwas=200000,100000 \
--pop=EUR,EAS \
--chrom=22 \
--phi=1e-2 \
--out_dir=path_to_output \
--out_name=test

注意:将路径替换为自己的路径

大约一分钟即可完成计算。

运行log如下:

*** 2 discovery populations detected ***

##### process chromosome 22 #####
... parse reference file: /home/heyunye/tools/prscs/ldref/snpinfo_mult_1kg_hm3 ...
... 18944 SNPs on chromosome 22 read from /home/heyunye/tools/prscs/ldref/snpinfo_mult_1kg_hm3 ...
... parse bim file: /home/heyunye/tools/prscsx/PRScsx/test_data/test.bim ...
... 1000 SNPs on chromosome 22 read from /home/heyunye/tools/prscsx/PRScsx/test_data/test.bim ...
... parse EUR sumstats file: /home/heyunye/tools/prscsx/PRScsx/test_data/EUR_sumstats.txt ...
... 1000 SNPs read from /home/heyunye/tools/prscsx/PRScsx/test_data/EUR_sumstats.txt ...
... 1000 common SNPs in the EUR reference, EUR sumstats, and validation set ...
... parse EAS sumstats file: /home/heyunye/tools/prscsx/PRScsx/test_data/EAS_sumstats.txt ...
... 1000 SNPs read from /home/heyunye/tools/prscsx/PRScsx/test_data/EAS_sumstats.txt ...
... 901 common SNPs in the EAS reference, EAS sumstats, and validation set ...
... parse EUR reference LD on chromosome 22 ...
... parse EAS reference LD on chromosome 22 ...
... align reference LD on chromosome 22 across populations ...
... 1000 valid SNPs across populations ...
... MCMC ...
--- iter-100 ---
--- iter-200 ---
--- iter-300 ---
--- iter-400 ---
--- iter-500 ---
--- iter-600 ---
--- iter-700 ---
--- iter-800 ---
--- iter-900 ---
--- iter-1000 ---
--- iter-1100 ---
--- iter-1200 ---
--- iter-1300 ---
--- iter-1400 ---
--- iter-1500 ---
--- iter-1600 ---
--- iter-1700 ---
--- iter-1800 ---
--- iter-1900 ---
--- iter-2000 ---
... Done ...

输出为EUR以及EAS的PRS:

test_EAS_pst_eff_a1_b0.5_phi1e-02_chr22.txt

test_EUR_pst_eff_a1_b0.5_phi1e-02_chr22.txt

head test_EAS_pst_eff_a1_b0.5_phi1e-02_chr22.txt
22      rs9605903       17054720        C       T       8.694291e-04
22      rs5746647       17057138        G       T       -1.005430e-03
22      rs5747999       17075353        C       A       -2.499230e-04
22      rs2845380       17203103        A       G       6.037999e-04
22      rs2247281       17211075        G       A       4.780305e-04
22      rs2845346       17214252        C       T       7.767527e-04
22      rs2845347       17214669        C       T       1.671207e-03
22      rs1807512       17221495        C       T       -1.778397e-03
22      rs5748593       17227461        T       C       9.849030e-04
22      rs9606468       17273728        C       T       1.442600e-04

使用该文件便可以利用plink进行PRS计算:

GWASLab:多基因风险分数 PRS( Polygenic risk score)系列之九: 使用PLINK2分染色体计算PRS并加和

PRScsx实例应用

PRScsx的通讯作者以第一作者的身份,将PRScsx应用于二型糖尿病的跨族裔PRS研究中, 文中使用PRScsx和European, African American,以及East Asian的GWAS数据,构建了二型糖尿病的跨族裔PRS。

https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-022-01074-2

参考

Ruan, Y., Lin, Y. F., Feng, Y. C. A., Chen, C. Y., Lam, M., Guo, Z., … & Ge, T. (2022). Improving polygenic prediction in ancestrally diverse populations. Nature Genetics54(5), 573-580.

Ge, T., Irvin, M. R., Patki, A., Srinivasasainagendra, V., Lin, Y. F., Tiwari, H. K., … & Karlson, E. W. (2022). Development and validation of a trans-ancestry polygenic risk score for type 2 diabetes in diverse populations. Genome medicine14(1), 1-16.

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s