本文内容
什么是基因组控制 Genomic Control
基因组膨胀系数λGC (Genomic Inflation Factor) 的计算方法
GC的注意事项以及解决办法

- 什么是基因组控制 Genomic Control
基因组控制是矫正GWAS中因群体分层等原因而导致检验统计量膨胀的一种方法。
考虑一种简单病例对照研究,假设有N个样本,以及n个SNP,φ是样本中病例的比例(0<φ<1), 对于某个SNP,其在病例以及对照中的频率如下表所示:

为了检验关联性,我们会基于隐形,显性,以及加性遗传模型来计算自由度为1的卡方检验量。这里以加性遗传模型为例,对SNP进行趋势检验 ( Armitage’s trend test)。其计算公式为:

我们假设对于每个SNP,我们都计算了其相应的趋势检验的Y2l统计量,当这些SNP之间没有连锁不平衡LD,且不存在人群分层以及隐性关联时,检验量Y2服从卡方分布。

基因组控制(Genomic control,GC)模型假设是这些检验统计量会因为群体分层以及隐形关联等原因出现膨胀,膨胀系数为 λ (基因组膨胀系数 Genomic Inflation Factor)。同时GC模型假设这个膨胀系数在基因组上对于所有SNP是近似相等的。
2.基因组膨胀系数 Genomic Inflation Factor 的计算方法
基于此我们可以通过下式来估计λGC ,

取GWAS检验后所有卡方检验量的中间值,除以0.456,其中0.456为卡方检验量的期望值 (卡方分布中,第50百分位数的卡方统计量,r语言中qchisq(0.5,1)对应的值)。之所以取中间值计算λGC是因为要避免异常值的影响。
λ越接近1,就表明不存在群体分层导致的统计量膨胀。
将GWAS检验后所有卡方统计量除以λ后重新计算p值得过程即为基因组控制 GC。
例如这个GWAS研究的QQ图,可以看到观测值有一个明显的系统性的抬升,这通常意味着样本中存在在群体分层,通过计算我们得到这个GWAS研究的基因组膨胀系数为 λ=1.17,

将原始的统计量除以1.17,重新计算p值后,可以看到之前的抬升得到有效控制。

3. GC的注意事项以及解决办法:
但要注意的是,GC假设基因组中只有少数的loci与表型相关,绝大多数被检验的SNP是与表型无关的,而目前的主流GWAS检验方法大多基于无限小模型(infinitesimal model)(详见:解释复杂疾病的四种主流模型 CDCV/RAME/infinitesimal/Broad-sense-heritability),该模型假设所有SNP与表型都是有关的,只是效应量很小。这种情况下就不再适用GC。
其他解决人群分层等的办法包括:
- 严格的质控QC GWAS前的质控(QC) GWAS Quality control
- 通过LD score回归来判别统计量的膨胀是因为人群分层等外部影响,还是多基因遗传结构的影响。连锁不平衡分数回归 LD score regression
- 使用LMM模型(线性混合模型 – LMM Linear Mixed Model)并将PCA的主成分加入协变量。群体分层与主成分分析 Population structure & PCA
等等
参考:
Devlin, B. & Roeder, K. Genomic control for association studies. Biometrics 55, 997–1004 (1999).
Devlin, B. Genomic control, a new approach to genetic-based associationb studies. (2001).
One thought on “基因组控制与基因组膨胀系数λ Genomic control λGC”