在复杂性状的GWAS研究中,大部分遗传力由并没有达到全基因组显著性水平的SNP关联贡献。然而当前许多利用功能信息与GWAS数据来研究疾病的方法仅仅使用达到显著性水品的loci里的SNP,并且只假设每个loci里只有一个因果SNP,或是完全不考虑LD。基于这些不足,本方法的作者们期望使用所有SNP的信息,并明确的将LD纳入模型,来估计每个功能分类的SNP遗传力,以提升power。
本方法是在基础的LD分数回归上的延伸,可以参考:
- 连锁不平衡分数回归 LD score regression
- 遗传相关 跨性状的LD分数回归(预留链接)
在此之前分割SNP遗传力的方法借助REML( restricted maximum likelihood ),例如GCTA,但需要个体的基因型的原始数据,并且需要很大的计算资源。所以作者们开发了分层LD分数回归,只需要GWAS的 summary statistics ,以及从与目标群体相对应的参考群体中计算得到的LD信息。
该方法的核心基于以下的一个事实, GWAS中某个SNP的χ2 检验统计量包含了所有被该SNP标记的SNP的效应。因此对于一个多基因性状,一个有高LD分数的SNP,相比于低 LD分数的SNP ,总体上也会有较高的 χ2 检验统计量 。原因主要是这些SNP可能标记了单个有很大效应量的SNP,或是多个较弱效果的SNP。(也就是 “以一敌百” 或者 “人多力量大”)
所以我们将所有SNP分为具有不同遗传力的功能分类,那么与某个高遗传力分类存在LD的SNP就会有更高的 χ2 检验统计量 。如果与某个功能分类存在高LD的SNP有较高的 χ2 检验统计量 ,那么就定义这个功能分类有遗传力聚集。
在多基因模型下,某个SNP j 的 χ2 检验统计量 的期望值为

- N为样本大小
- C则是功能分类的索引
- l(j,C)则是SNP j 对于分类C的LD分数

- a则衡量了混淆因素的大小
- τC则表示了每个SNP对于功能分类C遗传力的贡献。
该方程使我们可以估计 τC 的大小(也就是所谓的分割的遗传力)。定义某个分类的聚集为 该分类SNP遗传力的比例除以该分类SNP总数的比例。
该方法的作者们基于多个公开的注释数据库,构建了不针对任何细胞类型的全基线模型 ‘full baseline model’ , 包括 coding, UTR, promoter and intronic regions the histone marks monomethylation (H3K4me1) and trimethylation (H3K4me3) of histone H3 at lysine 等等。除此之外,还基于 全基线模型 ,构建了多个针对特定细胞类型的模型,包含针对细胞类型的注释等。
尽管Stratified LD score regression提供了一种便捷有效的分析 GWAS的 summary statistics 的方法,但我们也要同时注意该方法的不足之处:
- 为了达到足够的power,需要较大的样本量,或是较大的SNP遗传力,而且性状必须是多基因的
- 该方法需要针对研究群体的LD参考数据
- 该方法目前不支持自定义的array
- 该方法基于加性模型,没考虑上位或非加性的效应
- 该方法依赖于可用的功能注释,如果没有相应注释则无法检测
- 等等
使用方法:
下载,安装,配置环境,数据清理详见
https://alkesgroup.broadinstitute.org/LDSCORE/
从以上链接中我们需要下载以下内容(以欧洲群体为例):
- 基线模型LD分数 :
baseline.*
in1000G_Phase1_baseline_ldscores.tgz
- 频率 :
1000G.mac5eur.*
in1000G_Phase1_frq.tgz
- 权重 :
weights.*
inweights_hm3_no_hla.tgz
解压后即可使用:
python ldsc.py
--h2 BMI.sumstats.gz\
--ref-ld-chr baseline.\
--w-ld-chr weights.\
--overlap-annot\
--frqfile-chr 1000G.mac5eur.\
--out BMI_baseline
- –h2 : 计算分割的遗传力,参数为之前处理好的gwas summary statistics
--ref-ld-chr
:下载的参考LD分数文件--w-ld-chr
: 权重文件--frqfile-chr
: SNP频率文件--overlap-annot
: 表示基线模型中功能分类有重叠- –out:指定出输出文件的前缀
参考:
http://www.github.com/bulik/ldsc
https://github.com/bulik/ldsc/wiki/Partitioned-Heritability
Partitioning heritability by functional annotation using genome-wide association summary statistics https://www.nature.com/articles/ng.3404
啊宝藏博主 关注了关注了
赞赞
请问博主,可以只用GWAS summary数据中p<0.05的点来算S-LDSC吗?还是最好使用summary中所有的点呢?
赞赞
你好, 一般情况下要用hapmap3的位点(大概100万个左右)。
赞赞
好的,非常感谢!
赞赞
请问这里用到的参考文件 https://data.broadinstitute.org/alkesgroup/LDSCORE/weights_hm3_no_hla.tgz
网址为什么打不开呢?
赞赞
你好,最近在推特看到Alkes组(LDSC的作者)因为费用太贵在找其他服务器,可能在更换之前都用不了吧。
赞赞