进行GWAS前,我们需要对数据进行严格的质控,以排除可能造成假阳性的因素。
GWAS的质控主要可以分为两部分:
SNP层面的质控 Marker level QC
- SNP的丢失率(Missingness of SNPs)
- MAF (Minor allele frequency)
- 哈迪温伯格平衡 Hardy– Weinberg equilibrium (HWE)
样本层面的质控 Sample-level QC
- 样本的丢失率 (Missingness of individuals)
- 性别错误 (Sex discrepancy) :GWAS QC – 性别检查 与 阈值选择 Sex check
- 杂合性 (Heterozygosity)
- 关联 (Relatedness)
- 群体分层 (Population stratification)
SNP层面的质控 :
- SNP的丢失率(Missingness of SNPs):我们需要排除call rate过低的snp,通常排除call rate <=98%的snp。
- MAF (Minor allele frequency) : 对于GWAS来说,我们一般研究对象为common snps,通常排除maf<5% 或maf<1%的snp。如果是rare variants (即MAF<1%),检验的power会不足。大样本量时可以加入rare vairants。
- 哈迪温伯格平衡 Hardy– Weinberg equilibrium (HWE) :我们要排除掉严重偏离哈迪温伯格平衡的variants,这是常用的表示基因分型错误的指标,二分型性状(binary traits)对于case,排除的标准为HWE p值<1e −10,对于control ,HWE p值<1e−6。对于数量性状来说,通常以HWE p value <1e‐6为标准。
样本层面的质控 Sample-level QC
- 样本的丢失率 (Missingness of individuals):与SNP的丢失率类似,我们要排除掉高基因型丢失率的个体,通常的标准同样为98%。
- 性别错误 (Sex discrepancy):有时数据录入会有错误,我们应基于X染色体的杂合性,确定是否有性别录入错误的个体。通常对于男性,X染色体的纯合性(homozygosity)估计值应高于0.8,女性应低于0.2.
- 杂合性 (Heterozygosity):排除掉有过高或过低杂合性的个体,过高或过低杂合性通常意味着样本污染或是近亲繁殖。通常排除掉在平均杂合率在三个标准差以外的个体。
- 亲缘 (Relatedness):基于所有样本两两之间的IBD来排除掉有亲缘关系的个体。通常的标准为需要排除二级亲属(second degree relatives),详见:预留链接。
- 群体分层 (Population stratification):要去除掉非目标群体的个体(ethinic outlier),主要通过PCA等方法,详见:群体分层与主成分分析 Population structure & PCA
参考:
Marees, A.T., de Kluiver, H., Stringer, S., Vorspan, F., Curis, E., Marie-Claire, C., and Derks, E.M. (2018). A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research 27.
One thought on “GWAS前的质控(QC) GWAS Quality control”