本文将讲解多基因风险分数PRS(Polygenic risk score,或称PGS) 的相关基础概念,
目录
- PRS的背景
- PRS的概念与定义
- PRS的一般性质
- 构建PRS的注意事项
- PRS的验证与预测
- 相关软件
- 参考

1. PRS的背景与概念
(首先复习: 遗传结构 Genetic architecture )
一般情况下,对于单基因疾病(孟德尔遗传病)来说,只有单个或少数基因对表型有很大的影响,与之相对,对于复杂疾病来,通常有大量的遗传位点对表型有较小的影响,目前GWAS研究多基于此类无限小的假设(详见:解释复杂疾病的四种主流模型 CDCV/RAME/infinitesimal/Broad-sense-heritability ),这种情况下单个变异不足以用来评估个体对某一复杂疾病的风险,所以为了找到一个能够评估个体疾病风险的值,PRS (多基因风险评分)就应运而生,PRS的概念简单说就是,总和多个遗传变异与表型关系的数值。

2. PRS的一般定义
PRS (polygenic risk score, 多基因风险分数) , 对于非疾病的表型也称为 PGS (polygenic score)
实际研究中,PGS 的数学上的定义一般如下所示:
PGS是基因组上与表型相关等位基因的加权线性组合 (权重通常为GWAS中估计的效应量)。

其中: i 表示第i个个体, j 为第j个SNP, wj为该SNP的权重,a则为第i个个体第j个SNP的等位基因拷贝数
这里要注意:
通常PGS假设潜在的模型是加性模型 (additive model)。
上述式子是一个概念性的定义式,实际操作中还需要进行额外操作。
3 PRS的一般性质
PRS可以被认为是多个独立的遗传信号的总和,那么根据中心极限定理,PRS也近似服从正态分布。

4.构建PRS的注意事项
4.1 GWAS discovery阶段的样本量要足够大
大的样本量:
- 有助于减少采样误差(sampling error),
- 有助于获得更精准的效应量估计值
- 同时也有助于发现效应量较小的SNP (回忆 missing heritability 遗传力 Heritability 与 Missing heritability)
好在从GWAS Diversity Monitor (https://gwasdiversitymonitor.com/)上可以看到,GWAS的样本量是在逐年上升的,目前规模最大的GWAS的样本量已经达到了三百万的级别,这将在未来有效促进PRS的构建。

4.2 选择纳入计算的SNP
这包含了两方面因素,1是纳入计算的SNP的数量如何决定,2是对于纳入的SNP如何施加权重。通常情况下这两方面的选择取决于研究的表型,与应用的类型。
目前主要的方法包括 :
GWAS中对SNP的检验通常是逐个进行的,由于LD的存在,这会使得SNP的效应估计值有偏差,继而导致PRS出现偏倚。为了减弱这种偏差目前有两种主流方法:
4.2.1 p值 clumping + thresholding法 (P+T 或 C+T) :
一种常用的方法就是在PRS的计算中只纳入一部分SNP,也就是先进行clumping(基于p值的pruning) (详见:SNP的LD剪枝与聚集 LD pruning & clumping),筛出各个loci里p值最低的SNP,然后再基于p值的某个阈值,选择纳入的SNP。
4.2.2 beta 缩减法
与第一种纳入部分SNP的思路不同,第二种方法是纳入所有的SNP,但在计算时会基于LD信息调整SNP的权重,例如LASSO回归(lassosum),与一些基于贝叶斯方法的算法 (LDpred等)。

5 PRS的验证与预测
5.1 要注意的是,在PRS研究中要使用独立的样本,也就是在GWAS discovery阶段使用的样本与PRS的目标样本之间不应该有重复。这主要是为了避免overfitting 过拟合的问题。只有当样本量足够大时,才可以使用同一样本。

5.2 目标样本应当为同一族裔。
由于不同族裔之间,MAF,局部LD等等的不同,PRS的泛用性较差。例如由BBJ计算而得的二型糖尿病PRS模型,应用到UKBB的人群中时,预测的r2明显降低。

5.3 提升PRS跨族裔泛用性
值得注意的是,目前也有研究致力于提升PRS在不同族裔间的泛用性。例如Amariuta等就基于转录因子介导的细胞特异的调节的位点的功能注释 (Functional annotations marking the precise location of TF-mediated cell-type-specific regulation )来降低群体特异的LD结构(population-specific LD),以提升PRS在不同族裔间的准确度。

6 目前使用较多的PRS软件包括:
PLINK 多基因风险分数 PRS( Polygenic risk score)系列之二:使用PLINK计算PRS(C+T方法)
PRSice 多基因风险分数 PRS( Polygenic risk score)系列之三:使用PRSice计算PRS(C+T方法)
LDpred 1/ 2
PRS-CS 多基因风险分数 PRS( Polygenic risk score)系列之五:使用PRS-CS计算PRS(beta-shrinkage方法)
Lassosum
等等,我会在后续的文章中介绍具体使用方法。
其他PRS相关文章:
- 多基因风险分数 PRS( Polygenic risk score)系列之六:metaGRS介绍
- 多基因风险分数 PRS( Polygenic risk score)系列之七:Pathway-based PRS 通路PRS
- 多基因风险分数 PRS( Polygenic risk score)系列之八:PGS Catalog
7 参考:
Choi, S. W., Mak, T. S. H. & O’Reilly, P. F. Tutorial: a guide to performing polygenic risk score analyses. Nature Protocols 15, 2759–2772 (2020).
McCarthy, M., Abecasis, G., Cardon, L. et al. Genome-wide association studies for complex traits: consensus, uncertainty and challenges. Nat Rev Genet 9, 356–369 (2008).
Amariuta, T. et al. Improving the trans-ancestry portability of polygenic risk scores by prioritizing variants in predicted cell-typespecific regulatory elements. Nature Genetics 52, 1346–1354 (2020).
《多基因风险分数 PRS( Polygenic risk score)系列之一:概念入门》有6个想法