哈迪-温伯格平衡
回顾: 哈迪温伯格平衡 Hardy– Weinberg equilibrium
哈迪-温伯格平衡精确检验检验原理
假设有N个无亲缘关系的样本 (对应有2N个等位)
在哈迪温伯格平衡下,在N个样本的群体中观察到有个样本为AB基因型的精确概率为:
计算哈迪温伯格平衡精确检验的统计量时,我们需要把概率小于观察到的概率(个样本为AB基因型)的情况的概率进行加和,如下所示:
为一个指示函数. 如果x为真,
; 否则,
.
实际使用软件计算时,通常会采用一些近似方法来避免大量的计算,可以参考PLINK中的HWE的算法。
使用PLINK进行HWE检验
PLINK提供了计算哈迪温伯格平衡精确检验的统计量--hardy
以及基于统计量进行过滤--hwe
的选项:
plink \
--bfile ${genotypeFile} \
--hardy \
--out plink_results
输出结果如下, P列即为哈迪温伯格平衡精确检验的结果:
$ head plink_results.hwe
CHR SNP TEST A1 A2 GENO O(HET) E(HET) P
1 1:13273:G:C ALL(NP) C G 1/61/442 0.121 0.1172 0.7113
1 1:14599:T:A ALL(NP) A T 1/88/415 0.1746 0.1626 0.1625
1 1:14604:A:G ALL(NP) G A 1/88/415 0.1746 0.1626 0.1625
1 1:14930:A:G ALL(NP) G A 4/409/91 0.8115 0.4851 1.679e-61
1 1:69897:T:C ALL(NP) T C 7/111/386 0.2202 0.2173 1
1 1:86331:A:G ALL(NP) G A 0/88/416 0.1746 0.1594 0.02387
1 1:91581:G:A ALL(NP) A G 137/228/139 0.4524 0.5 0.03271
1 1:122872:T:G ALL(NP) G T 1/259/244 0.5139 0.3838 8.04e-19
1 1:135163:C:T ALL(NP) T C 1/91/412 0.1806 0.1675 0.1066
或者可以通过--hwe 1e-6
直接过滤掉P小于1e-6的SNP
plink \
--bfile ${genotypeFile} \
--hwe 1e-6 \
--out plink_results
参考
https://www.cog-genomics.org/plink/1.9/dev#exact
https://www.cog-genomics.org/plink/1.9/basic_stats#hardy
Wigginton, J. E., Cutler, D. J., & Abecasis, G. R. (2005). A note on exact tests of Hardy-Weinberg equilibrium. The American Journal of Human Genetics, 76(5), 887-893. Link