目录
LDSC-SEG简介
LDSC-SEG原理
LDSC-SEG教程
参考
LDSC-SEG简介
本文主要介绍LD分数回归的一项功能扩展 ,LDSC-SEG。该方法主要通过整合基因表达数据与GWAS数据,来发现疾病相关的组织或细胞种类,其底层原理是使用分层LD分数回归(stratified LD score regression,回顾:GWASLab:基于功能分类分割遗传力 – 分层LD分数回归 Stratified LD score regression)来检测表型的遗传性是否富集于某个组织或细胞高特异表达基因的周围。
LDSC-SEG原理

LDSC-SEG的主要步骤 (如图所示)
- 从一个标准化后的基因表达矩阵(包含不同组织与细胞)开始
- 对于每个gene,首先计算其在目标组织中特异表达的t统计量
- 根据t统计量从大到小对所有基因进行排序,并将位于t统计量最高的前10%的基因定义为该组织特异表达的基因集。
- 在这些特异表达的基因的转录区域两侧加上100kb的窗口,并以此为构建组织特异的基因组注释。
- 最后对于以上注释后的不同组别进行分层LD回归来估计不同组织或细胞对于所研究表型遗传力的贡献

联合回归模型中同时包括
1)上述目标组织或细胞特异的基因集,
2)一个包含基因组上所有基因的基因集,
3)包含52种注释的基线模型(这些注释包括增强子区域,保守性区域等,可参考 stratified LD score regression)。
特异基因集的回归系数为正数,则表示矫正其他基因集后,该特异基因集对表型遗传性的贡献为正。
基因表达数据来源(原文中处理了五组公开的数据集,如下所示)
GTEx | Human | 53 tissues/cell types | RNA-seq |
Franke lab | Human/mouse/rat | 152 tissues/cell types | Array |
Cahoy | Mouse | 3 brain cell types | Array |
PsychENCODE | Human | 2 neuronal cell types | RNA-seq |
ImmGen | Mouse | 292 immune cell types | Array |
实战操作
ldsc 下载安装可参考: GWASLab:连锁不平衡分数回归 LD score regression -LDSC
教程原文:
https://github.com/bulik/ldsc/wiki/Cell-type-specific-analyses
#以上述5组数据中的Cahoy数据为例:
cts_name=Cahoy
#下载对应的LD分数文件 (EUR)
#组织、细胞特异LD分数
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/LDSC_SEG_ldscores/${cts_name}_1000Gv3_ldscores.tgz
#基线模型文件
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/1000G_Phase3_baseline_ldscores.tgz
#权重文件
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/weights_hm3_no_hla.tgz
#解压
tar -xvzf ${cts_name}_1000Gv3_ldscores.tgz
tar -xvzf 1000G_Phase3_baseline_ldscores.tgz
tar -xvzf weights_hm3_no_hla.tgz
#下载GWAS数据
wget https://data.broadinstitute.org/alkesgroup/UKBB/body_BMIz.sumstats.gz
#下载SNP list
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/w_hm3.snplist.bz2
#解压
bunzip2 w_hm3.snplist.bz2
#第一步清洗数据
python munge_sumstats.py \
--sumstats body_BMIz.sumstats.gz \
--merge-alleles w_hm3.snplist \
--out UKBB_BMI
#第二步 进行LDSC-SEG
cts_name=Cahoy
ldsc.py \
--h2-cts UKBB_BMI.sumstats.gz \
--ref-ld-chr 1000G_EUR_Phase3_baseline/baseline. \
--out BMI_${cts_name} \
--ref-ld-chr-cts $cts_name.ldcts \
--w-ld-chr weights_hm3_no_hla/weights.
注意:
**--ref-ld-chr-cts
这里输入一个ldcts文件,共两列,第一列为一个便于识别的label,第二列则是逗号分隔的两个路径,第一个为被检测组织细胞的ld,第二个则为control的ld,路径格式与--ref-ld-chr
的格式类似。注意这里的都是相对与解压文件夹的相对路径,使用前最好修改为绝对路径。
如下图所示:
#组织细胞标签 检验组LD分数路径,对照组LD分数路径
Astrocyte Cahoy_1000Gv3_ldscores/Cahoy.1.,Cahoy_1000Gv3_ldscores/Cahoy.control.
Oligodendrocyte Cahoy_1000Gv3_ldscores/Cahoy.2.,Cahoy_1000Gv3_ldscores/Cahoy.control.
Neuron Cahoy_1000Gv3_ldscores/Cahoy.3.,Cahoy_1000Gv3_ldscores/Cahoy.control.
执行完成后可以查看结果:
.cell_type_results.txt
Name Coefficient Coefficient_std_error Coefficient_P_value
Neuron 7.93194788527e-09 3.02894244784e-09 0.00441303625204
Oligodendrocyte 7.32019970874e-10 3.51868270994e-09 0.417599619801
Astrocyte -5.76220451287e-09 2.60400594455e-09 0.98654507806
第一列即为dict文件里的label,第二,三列为ldcts文件里第二例第一个路径对应的ld分数的系数与se(对应cell type specific annotation),第四列为该系数的p值。
参考
https://github.com/bulik/ldsc/wiki/Cell-type-specific-analyses