基于LMM的一种快速的关联检验方法 fastGWA

TL;DR

一句话总结:fastGWA是基于LMM的检验方法,该方法应用了一种快速的估算方法(fastGWA-REML,也就是网格搜索),可以避免计算协方差矩阵V的逆,从而大幅提升计算速度。

背景:

目前基于线性混合模型(LMM)的检验方法已经被广泛应用于GWAS研究中,因为LMM可以矫正群体分层以及亲缘关系。基本的原理就是以从所有SNP估计而来的样本结构为条件,检验变异与表型的关联。详见 LMM模型

然而该模型的运算时间过长,目前的方法时间复杂度约为 O(mn2)到 O(m2n)之间,其中m是变异的数量,n是样本大小。

基于此背景,fastGWA旨在运用一种及其节省运算资源的算法,来进行基于LMM的GWAS分析,该方法内置在GCTA软件中。

fastGWA的LMM模型:

一般情况下LMM模型需要通过REML来估计参数,fastGWAS采用了以下的算法来简化计算,提升速度。

fastGWA-REML 算法:grid search(加速的重点)

计算 log-likelihood scores 时,将g的方差可能的取值范围,等间距取100个值,

所以每一步的间隔就是

注意,这里可能的取值上限取了大于表型方差的值,原因是要尽可能的包含各种情况,包括当真实的遗传力较大,且环境因素影响也十分显著时, g的方差估计值可能大于表型方差。

接下来,要细化搜索窗口,在前面100个取值点中,log-likelihood scores 取最大值的点周围,20%的范围内,再细分16步:

也就是说如果第一步

那么就要在下面的范围里,再细分出16个取值点,

每步的大小如下,

接下来不断重复这个步骤,直到两次细分后找的最大值只差小于:

这样我们就可以相对快速而精准的估计出随机效应方差的大小。

有了估计的协方差矩阵,我们就能利用一般化的最小二乘法估计效应量beta,算式如下:

参考:

Jiang L, Zheng Z, Qi T, et al. A resource-efficient tool for mixed model association analysis of large-scale data[J]. Nature genetics, 2019, 51(12): 1749-1755.

https://cnsgenomics.com/software/gcta/#Overview