GWAS前的质控(QC) GWAS Quality control

进行GWAS前,我们需要对数据进行严格的质控,以排除可能造成假阳性的因素。

GWAS的质控主要可以分为两部分:

SNP层面的质控 Marker level QC

  • SNP的丢失率(Missingness of SNPs)
  • MAF (Minor allele frequency)
  • 哈迪温伯格平衡 Hardy– Weinberg equilibrium (HWE)

样本层面的质控 Sample-level QC


SNP层面的质控 :

  1. SNP的丢失率(Missingness of SNPs):我们需要排除call rate过低的snp,通常排除call rate <=98%的snp。
  2. MAF (Minor allele frequency) : 对于GWAS来说,我们一般研究对象为common snps,通常排除maf<5% 或maf<1%的snp。如果是rare variants (即MAF<1%),检验的power会不足。大样本量时可以加入rare vairants。
  3. 哈迪温伯格平衡 Hardy– Weinberg equilibrium (HWE) :我们要排除掉严重偏离哈迪温伯格平衡的variants,这是常用的表示基因分型错误的指标,二分型性状(binary traits)对于case,排除的标准为HWE p值<1e −10,对于control ,HWE p值<1e−6。对于数量性状来说,通常以HWE p value <1e‐6为标准。

样本层面的质控 Sample-level QC

  • 样本的丢失率 (Missingness of individuals):与SNP的丢失率类似,我们要排除掉高基因型丢失率的个体,通常的标准同样为98%。
  • 性别错误 (Sex discrepancy):有时数据录入会有错误,我们应基于X染色体的杂合性,确定是否有性别录入错误的个体。通常对于男性,X染色体的纯合性(homozygosity)估计值应高于0.8,女性应低于0.2.
  • 杂合性 (Heterozygosity):排除掉有过高或过低杂合性的个体,过高或过低杂合性通常意味着样本污染或是近亲繁殖。通常排除掉在平均杂合率在三个标准差以外的个体。
  • 亲缘 (Relatedness):基于所有样本两两之间的IBD来排除掉有亲缘关系的个体。通常的标准为需要排除二级亲属(second degree relatives),详见:预留链接。
  • 群体分层 (Population stratification):要去除掉非目标群体的个体(ethinic outlier),主要通过PCA等方法,详见:群体分层与主成分分析 Population structure & PCA

参考:

Marees, A.T., de Kluiver, H., Stringer, S., Vorspan, F., Curis, E., Marie-Claire, C., and Derks, E.M. (2018). A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research 27.

One thought on “GWAS前的质控(QC) GWAS Quality control”

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s