目录
1 背景
2 算法简介
3 使用教程
3.1 magma软件与参考数据下载
3.2 注释
3.3 基因关联分析
3.4 通路分析
4 参考
背景
通过以有生物学意义的方式整合复杂疾病的信息的基因以及通路分析,是单变异GWAS的有效补充。
本文将介绍MAGMA,一个基于多变量回归模型的基因以及通路分析工具。
算法简介
Gene-based分析
magma的gene-based分析模型采用了多元线性主成分回归(multiple linear principal components regression)

α0g为截距,Xg* 为PC矩阵,W与βg为协变量变量的效应(可选),αg为遗传效应,εg为残差
计算时:
首先根据染色体位置提取某个基因SNP矩阵,计算PC
去除掉特征值过小的PC
对剩下的主成分进行回归
最后通过F检验获得p值 (H0: αg =0 )
Gene set /Pathway 基因集 通路分析
进行通路分析时,magma首先将上一步所得到的每个基因的p值通过probit方程转化为z值,

这里的zg整体上近似服从正态分布,zg反映了该基因关联的强度。
Self-contained gene-set analysis检验一个通路上的基因的整体上是否与表型相关联。使用通路里基因的z值,可以构建一个只有截距项的回归,然后检验β是否大于0:

Competitive gene-set analysis检验在一个通路里的基因,是否比这个通路里其他基因的相关性更高。

因为通路分析中的回归模型为标准线性回归,假设残差项独立正态分布,即

但实际上,由于LD,相邻的基因可能会互相关联,而打破上述假设。所以magma采用了广义最小二乘法,并假设

R为基因-基因的关联矩阵。
概括性数据分析
在没有原始基因型数据的情况下,magma也提供分析概括性数据SNP的p值的方法,即逐个分析某个基因中的SNP,然后将SNP的p值合并成该基因的检验统计量,但是该方法需要提供一个相近群体的LD参考面板。
使用教程
magma软件与参考数据下载
https://ctg.cncr.nl/software/magma
1.软件下载,下载对应系统的版本即可

2.基因注释参考,magma提供了多种版本,下载对因自己数据的版本

3.LD参考面板,来自1000 genome,下载相应人群的文件即可

magma三步骤:
- 注释:将自己的SNP根据染色体位置注释到基因上
- Gene-based 分析
- 基因集/通路分析
SNP注释 Annotation
第一步需要对gwas中所包含的SNP进行注释,在这里就是将SNP根据染色体上的位置对应到相应基因上。
示例代码如下:
magma \
--annotate \
--snp-loc [SNPLOC_FILE] \
--gene-loc [GENELOC_FILE] \
--out [ANNOT_PREFIX]
snp-loc 文件应当包含三列,SNPID,CHR以及POS,这里也可以直接使用plink的bim文件
rs540836310 1 861725
rs139858754 1 861728
gene-loc 可以直接使用magma提供的基因注释参考文件 (注意版本)
注释完成后会得到 .genes.annot文件,内容为第一例为geneID 之后为在这个基因内的SNP
816 rs540836310 rs139858754 rs188152259 rs13302982 rs76842830 rs13303101 rs74442310 rs6680268
基因关联分析 Gene-based analysis
第二部,进行基于基因的关联分析,
示例代码如下所示:
magma \
--bfile [REFDATA] \
--pval [PVAL_FILE] \
N=[N] \
--gene-annot [ANNOT_PREFIX].genes.annot \
--out [GENE_PREFIX]
bfile为原始数据或是参考LD面板,如果数据量不大可以直接使用自己的plink的bed格式原始数据,在原始数据无法获得的时候可以使用magma提供的1000 genome参考数据,biobank级别的数据的情况下,可以随机抽取某个族裔无亲缘关系的一定人数(例如20000人)来构建自己的参考面板。
pval为SNP的p值文件,包含两列 SNP 以及 P, 这里N为样本量,
gene-annot为上一步注释后得到的文件。
完成后有两个文件输出;1 .genes.out 2 ..genes.raw
1 .genes.out 基因关联分析的结果
GENE CHR START STOP NSNPS NPARAM N ZSTAT P
148398 1 859993 879961 125 27 157848 -1.7291 0.9581
2 ..genes.raw 在第三步通路分析时会使用到这个文件
# VERSION = 109
# COVAR = NSAMP MAC
148398 1 859993 879961 125 27 157848 133.304 -1.72907
基因集 通路分析 gene-set analysis 、 pathway
第三步,通路分析
这一步是对显著的基因是否富集于某个基因集或通路进行检验,
如果是对经典的通路进行检验,可以在MSigDB(GSEA)下载通路文件 msigdb.v7.4.entrez.gmt
MSigDB:https://www.gsea-msigdb.org/gsea/downloads.jsp#msigdb
示例代码如下:
magma \
--gene-results [GENE_PREFIX].genes.raw \
--set-annot [SET_FILE] \
--out [GS_PREFIX]
gene-results 为上一步基因关联分析所得的.genes.raw文件
set-annot 为基因集或通路的定义文件,可以直接使用MSigDB下载的文件(注意基因ID要与之前相对应)
默认输出三个.gsa.out .gsa.genes.out, .gsa.sets.genes.out
.gsa.out 为最主要的输出文件,包含了各个通路的检验结果
# TOTAL_GENES = 17198
# TEST_DIRECTION = one-sided, positive (set), two-sided (covar)
# CONDITIONED_INTERNAL = gene size, gene density, inverse mac, log(gene size), log(gene density), log(inverse mac)
VARIABLE TYPE NGENES BETA BETA_STD SE P FULL_NAME
chr1p12 SET 18 -0.096902 -0.00381 0.30843 0.71093 chr1p12
.gsa.genes.out 为在此分析中使用到的基因关联结果
GENE CHR START STOP NSNPS NPARAM N ZSTAT ZFITTED_BASE ZRESID_BASE
148398 1 859993 879961 125 42 12345 -1.62 0 -1.62
.gsa.sets.genes.out 为多重检验调整后, 显著的通路里的基因的信息
参考
MAGMA: Generalized Gene-Set Analysis of GWAS Data. de Leeuw CA, Mooij JM, Heskes T, Posthuma D (2015) MAGMA: Generalized Gene-Set Analysis of GWAS Data. PLOS Computational Biology 11(4): e1004219. https://doi.org/10.1371/journal.pcbi.1004219