第一类错误,第二类错误以及检验效能
该表列举了零假设与统计学检验结果(是否拒绝原假设
)之间的关系
H0 为真 | H0 为假 | |
---|---|---|
不拒绝原假设 | 真阴性 : |
第二类错误 (伪阴性) : |
拒绝原假设 | 第一类错误 (伪阳性) : |
真阳性 : |
: 显著性水平
根据定义,检验效能( statistical power )指某检验正确地拒绝零假设的概率,也就是上表中的真阳性( True positive)。
影响检验效能的因素 Factors affecting power
- 总的样本量 Total sample size
- 病例与对照的比例 Case and control ratio
- 变异的效应量大小 Effect size of the variant
- 风险等位的频率 Risk allele frequency
- 显著性阈值 Significance threshold
非中心参数 Non-centrality parameter
非中心参数 : 非中心参数(Non-centrality parameter; NCP)用于描述零假设与备择假设
之间差异的程度。
考虑如下的线性模型:
误差项的方差为:
通常情况下单个SNP所能解释的表型的方差是极其有限的,所以我们可以近似地认为
在哈迪温伯格平衡下,有
: 该变异的等位频率(allele frequency)
自由度为1的分布的非中心参数NCP则为
数量表型的检验效能
显著性阈值:
:
分布的累积分布函数的反函数
: 非中心参数NCP为
的
分布的累积分布函数
病例对照表型的检验效能 Power for large-scale case-control genome-wide association studies
设
: 在病例中风险等位的频率 Risk allele frequency in cases
: 病例的样本量 Number of cases. The total allele count for cases is then
.
: 在对照中风险等位的频率 Risk allele frequency in controls
: 对照的样本量 Number of control. The total allele count for control is then
.
这种情况下零假设为 : , 即风险等位的频率在病例中与对照中是一样的。
检验两个正态分布的比例的不同时,所用的统计量为
显著性阈值:
计算GWAS统计效能的网页工具 GAS power calculator
GAS power calculator工具实现了上述的计算方法,可以通过网页工具,指定参数后进行计算。
示例:
参考
- https://cloufield.github.io/GWASTutorial/20_power_analysis/
- Skol, A. D., Scott, L. J., Abecasis, G. R., & Boehnke, M. (2006). Joint analysis is more efficient than replication-based analysis for two-stage genome-wide association studies. Nature genetics, 38(2), 209-213.
- Johnson, J. L., & Abecasis, G. R. (2017). GAS Power Calculator: web-based power calculator for genetic association studies. BioRxiv, 164343.
- Sham, P. C., & Purcell, S. M. (2014). Statistical power and significance testing in large-scale genetic studies. Nature Reviews Genetics, 15(5), 335-346.