关键词:LMM,proximal contaminal, LOCO
目前的GWAS已经开始逐渐使用线性混合模型( linear mixed models ,LMM)来代替早期的线性模型,主要原因是线性混合模型能够校正多种原因造成的混淆,例如遗传关联( genetic relatedness ),家庭关联( familial relatedness ),群体分层( population structure )等,LMM模型也因此能够控制假阳性,并提高检验power。
但在使用混合线性模型中一个重要的问题就是,当我们在GRM中纳入了被检验的SNP时,反而会导致power降低。原因是在模型中我们对待检测SNP进行了二重拟合( double-fitting ),即:
- 1 . 作为检验关联时的固定效应(fixed effect)
- 2. 在GRM中作为随机效应 (random effect)
这种现象就被称为 临近污染 “proximal contamination”。
为了避免此现象造成的power损失,理论上在构建null模型中排除掉待检验SNP是正确的做法,但这样太占运算资源,所以在实践中,我们会采用 LOCO Leave-one-chromosome-out ,即使用排除掉待检验SNP所在的染色体的所有SNP,再进行检验(也就是说我们有对应22个常染色体的loco null模型)。
目前主流的软件都已支持loco,只需要–loco 指定即可。
参考:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3597090/
Advantages and pitfalls in the application of mixed-model association methods