GWAS检验效能 Power analysis for GWAS

第一类错误,第二类错误以及检验效能

该表列举了零假设H_0与统计学检验结果(是否拒绝原假设H_0)之间的关系

H0 为真 H0 为假
不拒绝原假设 真阴性 : 1 - \alpha 第二类错误 (伪阴性) : \beta
拒绝原假设 第一类错误 (伪阳性) : \alpha 真阳性 : 1 -  \beta

\alpha : 显著性水平

根据定义,检验效能( statistical power )指某检验正确地拒绝零假设的概率,也就是上表中的真阳性( True positive)。

Power = Pr ( Reject\ | H_0\ is\ False) = 1 -  \beta

image

影响检验效能的因素 Factors affecting power

  • 总的样本量 Total sample size
  • 病例与对照的比例 Case and control ratio
  • 变异的效应量大小 Effect size of the variant
  • 风险等位的频率 Risk allele frequency
  • 显著性阈值 Significance threshold

非中心参数 Non-centrality parameter

非中心参数 : 非中心参数(Non-centrality parameter; NCP)用于描述零假设H_0与备择假设H_1之间差异的程度。

考虑如下的线性模型:

y = \mu +\beta x + \epsilon

误差项的方差为:

\sigma^2 = Var(y) - Var(x)\beta^2

通常情况下单个SNP所能解释的表型的方差是极其有限的,所以我们可以近似地认为

\sigma^2  \thickapprox Var(y)

在哈迪温伯格平衡下,有

Var(x) = 2f(1-f)

  • f : 该变异的等位频率(allele frequency)

自由度为1的\chi^2分布的非中心参数NCP则为

\lambda = ({{\beta}\over{SE_{\beta}}})^2

数量表型的检验效能

\lambda = ({{\beta}\over{SE_{\beta}}})^2 \thickapprox N \times {{Var(x)\beta^2}\over{\sigma^2}} \thickapprox N \times {{2f(1-f) \beta^2 }\over {Var(y)}}

显著性阈值: C = CDF_{\chi^2}^{-1}(1 - \alpha,df=1)

  • CDF_{\chi^2}^{-1}(x) : \chi^2分布的累积分布函数的反函数

Power = Pr(\lambda > C ) = CDF_{\chi^2}(C, ncp = \lambda,df=1)

  • CDF_{\chi^2}(x, ncp= \lambda) : 非中心参数NCP为\lambda\chi^2分布的累积分布函数

病例对照表型的检验效能 Power for large-scale case-control genome-wide association studies

  • P_{case} : 在病例中风险等位的频率 Risk allele frequency in cases
  • N_{case} : 病例的样本量 Number of cases. The total allele count for cases is then 2N_{case}.
  • P_{control} : 在对照中风险等位的频率 Risk allele frequency in controls
  • N_{control} : 对照的样本量 Number of control. The total allele count for control is then 2N_{control}.

这种情况下零假设为 : P_{case} = P_{control} , 即风险等位的频率在病例中与对照中是一样的。

检验两个正态分布的比例的不同时,所用的统计量为

z = {{P_{case} - P_{control}}\over {\sqrt{ {{P_{case}(1 - P_{case})}\over{2N_{case}}} + {{P_{control}(1 - P_{control})}\over{2N_{control}}} }}}

显著性阈值: C = \Phi^{-1}(1 - \alpha / 2 )

Power = Pr(|Z|>C) = 1 - \Phi(-C-z) + \Phi(C-z)

计算GWAS统计效能的网页工具 GAS power calculator

GAS power calculator工具实现了上述的计算方法,可以通过网页工具,指定参数后进行计算。

GAS power calculator

示例: image

参考

  • https://cloufield.github.io/GWASTutorial/20_power_analysis/
  • Skol, A. D., Scott, L. J., Abecasis, G. R., & Boehnke, M. (2006). Joint analysis is more efficient than replication-based analysis for two-stage genome-wide association studies. Nature genetics, 38(2), 209-213.
  • Johnson, J. L., & Abecasis, G. R. (2017). GAS Power Calculator: web-based power calculator for genetic association studies. BioRxiv, 164343.
  • Sham, P. C., & Purcell, S. M. (2014). Statistical power and significance testing in large-scale genetic studies. Nature Reviews Genetics, 15(5), 335-346.