基于功能分类分割遗传力 – 分层LD分数回归 Stratified LD score regression

在复杂性状的GWAS研究中,大部分遗传力由并没有达到全基因组显著性水平的SNP关联贡献。然而当前许多利用功能信息与GWAS数据来研究疾病的方法仅仅使用达到显著性水品的loci里的SNP,并且只假设每个loci里只有一个因果SNP,或是完全不考虑LD。基于这些不足,本方法的作者们期望使用所有SNP的信息,并明确的将LD纳入模型,来估计每个功能分类的SNP遗传力,以提升power。

本方法是在基础的LD分数回归上的延伸,可以参考:

在此之前分割SNP遗传力的方法借助REML( restricted maximum likelihood ),例如GCTA,但需要个体的基因型的原始数据,并且需要很大的计算资源。所以作者们开发了分层LD分数回归,只需要GWAS的 summary statistics ,以及从与目标群体相对应的参考群体中计算得到的LD信息。

 该方法的核心基于以下的一个事实,  GWAS中某个SNP的χ2  检验统计量包含了所有被该SNP标记的SNP的效应。因此对于一个多基因性状,一个有高LD分数的SNP,相比于低 LD分数的SNP ,总体上也会有较高的 χ2  检验统计量 。原因主要是这些SNP可能标记了单个有很大效应量的SNP,或是多个较弱效果的SNP。(也就是 “以一敌百” 或者 “人多力量大”)

所以我们将所有SNP分为具有不同遗传力的功能分类,那么与某个高遗传力分类存在LD的SNP就会有更高的 χ2  检验统计量 。如果与某个功能分类存在高LD的SNP有较高的 χ2  检验统计量 ,那么就定义这个功能分类有遗传力聚集。

在多基因模型下,某个SNP j 的 χ2  检验统计量 的期望值为

  • N为样本大小
  • C则是功能分类的索引
  • l(j,C)则是SNP j 对于分类C的LD分数
  • a则衡量了混淆因素的大小
  • τC则表示了每个SNP对于功能分类C遗传力的贡献。

该方程使我们可以估计 τC 的大小(也就是所谓的分割的遗传力)。定义某个分类的聚集为 该分类SNP遗传力的比例除以该分类SNP总数的比例。


该方法的作者们基于多个公开的注释数据库,构建了不针对任何细胞类型的全基线模型 ‘full baseline model’ , 包括 coding, UTR, promoter and intronic regions the histone marks monomethylation (H3K4me1) and trimethylation (H3K4me3) of histone H3 at lysine 等等。除此之外,还基于 全基线模型 ,构建了多个针对特定细胞类型的模型,包含针对细胞类型的注释等。

尽管Stratified LD score regression提供了一种便捷有效的分析 GWAS的 summary statistics 的方法,但我们也要同时注意该方法的不足之处:

  • 为了达到足够的power,需要较大的样本量,或是较大的SNP遗传力,而且性状必须是多基因的
  • 该方法需要针对研究群体的LD参考数据
  • 该方法目前不支持自定义的array
  • 该方法基于加性模型,没考虑上位或非加性的效应
  • 该方法依赖于可用的功能注释,如果没有相应注释则无法检测
  • 等等

使用方法:

下载,安装,配置环境,数据清理详见

  • 连锁不平衡分数回归 LD score regression
  • 除了以上步骤外,我们还需要下载相应的baseline模型:

    https://alkesgroup.broadinstitute.org/LDSCORE/

    从以上链接中我们需要下载以下内容(以欧洲群体为例):

    • 基线模型LD分数 :baseline.* in 1000G_Phase1_baseline_ldscores.tgz
    • 频率 :1000G.mac5eur.* in 1000G_Phase1_frq.tgz
    • 权重 :weights.* in weights_hm3_no_hla.tgz

    解压后即可使用:

    python ldsc.py 
    	--h2 BMI.sumstats.gz\
    	--ref-ld-chr baseline.\ 
    	--w-ld-chr weights.\
    	--overlap-annot\
    	--frqfile-chr 1000G.mac5eur.\
    	--out BMI_baseline
    
    • –h2 : 计算分割的遗传力,参数为之前处理好的gwas summary statistics
    • --ref-ld-chr :下载的参考LD分数文件
    • --w-ld-chr: 权重文件
    • --frqfile-chr: SNP频率文件
    • --overlap-annot: 表示基线模型中功能分类有重叠
    • –out:指定出输出文件的前缀

    参考:

    http://www.github.com/bulik/ldsc

    https://github.com/bulik/ldsc/wiki/Partitioned-Heritability

    Partitioning heritability by functional annotation using genome-wide association summary statistics https://www.nature.com/articles/ng.3404

    《基于功能分类分割遗传力 – 分层LD分数回归 Stratified LD score regression》有6个想法

        1. 你好,最近在推特看到Alkes组(LDSC的作者)因为费用太贵在找其他服务器,可能在更换之前都用不了吧。

    发表评论

    Fill in your details below or click an icon to log in:

    WordPress.com 徽标

    您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

    Twitter picture

    您正在使用您的 Twitter 账号评论。 注销 /  更改 )

    Facebook photo

    您正在使用您的 Facebook 账号评论。 注销 /  更改 )

    Connecting to %s