多基因风险分数 PRS( Polygenic risk score)系列之七:Pathway-based PRS 通路PRS

本文是多基因风险分数PRS系列的第七篇文章,主要介绍基于通路的PRS(Pathway-based PRS)的概念,以及简要的计算方法(仅供参考)。

回顾:

基于通路的PRS (Pathway-based PRS )简介

目前主流PRS计算模型的局限

当前主流的PRS计算方法都是基于疾病的经典多基因模型,也就是假设个体处在一个从低到高风险的线性分布上,其PRS作为易感性(liability)的估计值,能够总结这个个体的遗传概况。

易感性:易感性-阈值模型 Genetic liability, Threshold model

但这种方法也存在显著的缺陷,那就是这种概括性的估计值不能完全捕捉个体遗传特征,存在明显的信息丢失,一个最显著的例子就是无法判别不同生物学过程与通路之间遗传风险大小的变化,但这类信息通常在PRS的应用中(例如病人分层,或是治疗反应预测)起到重要的作用。

为了解决上述问题,近年来基于通路的PRS方法逐渐获得关注,本文将主要介绍Paul O’Reilly课题组开发的Pathway-based PRS方法PRSet。PRSet方法可以解释基因组中的亚结构(genomic sub-structure),该模型在经典多基因模型中进行扩展,使其能更好反映疾病的异质性。

基于通路的PRS : Pathway-based PRS

经典PRS模型计算整个基因组上risk allele与其效应估计乘积的加和,而pathway-based PRS只分别纳入k个相关通路上的SNP。也就是说,使用pathway-based PRS方法时,一个个体会有k个不同通路的通路PRS,每个通路PRS都对应基因组上一个具体的通路。(如图a)

在这里,通路可以由多种方式定义,可以是一些经典的通路数据库(如:KEGG,REACTOME等),也可以是通过基因共表达,蛋白质互作,实验扰动的功能产出等分析得到的模组。

理想状态下,通路能够反映不同生物学功能的编码。这些功能是可分割的,就像流行病学研究中,不同环境风险因素(抽烟,饮食,等等)也是分割的一样。基于这种观点,我们可以吧GWAS的结果也视为不同通路编码的生物学功能的信号的综合。(如图b)

PRSet的通路PRS方法简要原理

PRSet采用传统的C+T方法,分别对k条通路分别计算PRS,mk为每条通路上SNP数量,对于每个个体i,计算后会得到对应k个通路的k个PRS:

Clumping

与传统C+T对基因组上所有SNP进行clumping的方法不同,PRSet独立地对每条通路上的SNP进行clumping,确保能最大程度的保留信号。PRSet采用如下所示的bit-flag方法,对不同通路独立clumping。简单来说就是只有indexSNP包含在该gene set的时候才会去除掉需要被clump的SNP,否则会保留。

PRSet软件链接:https://www.prsice.info/prset_detail/

注:该方法的优势是简单快速,而且已经在软件中实现,作为探索可以尝试,但具体效果还有待检验。

(20211211:目前该文章还没有正式发表,文章里的检验方法不能令人信服,所以仅供参考)

参考:https://www.prsice.info/prset_detail/

https://europepmc.org/article/ppr/ppr362752

《多基因风险分数 PRS( Polygenic risk score)系列之七:Pathway-based PRS 通路PRS》有3个想法

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s