SAIGE

关键词:saige,GLMM,case-control imbalance

一句话解释:SAIGE是一种针对二分类表型(binary phenotype)能够调整样本对照不平衡(case-control imbalance)与隐性关联(cryptic relatedness)的检验方法。


saige 与 bolt-lmm 或 regenie 类似,都需要两个步骤。saige使用的是GLMM模型:

具体流程如下:

第一步(构建null模型):利用 array genotype ,估计 null 逻辑斯蒂混合模型(GLMM)。

通过PQL方法 和 AI-REML 算法简化计算提高效率。

隐性关联由随机效应解释。

第二步(检验):分数检验,并通过SPA调整。

saige方法之所以能调节 case-control不平衡 ,关键点就在于利用SPA对检验的调整。

SPA:

2 steps in SAIGE

(未完待续)

GWAS前的质控(QC) GWAS Quality control

进行GWAS前,我们需要对数据进行严格的质控,以排除可能造成假阳性的因素。

GWAS的质控主要可以分为两部分:

SNP层面的质控 Marker level QC

  • SNP的丢失率(Missingness of SNPs)
  • MAF (Minor allele frequency)
  • 哈迪温伯格平衡 Hardy– Weinberg equilibrium (HWE)

样本层面的质控 Sample-level QC


SNP层面的质控 :

  1. SNP的丢失率(Missingness of SNPs):我们需要排除call rate过低的snp,通常排除call rate <=98%的snp。
  2. MAF (Minor allele frequency) : 对于GWAS来说,我们一般研究对象为common snps,通常排除maf<5% 或maf<1%的snp。如果是rare variants (即MAF<1%),检验的power会不足。大样本量时可以加入rare vairants。
  3. 哈迪温伯格平衡 Hardy– Weinberg equilibrium (HWE) :我们要排除掉严重偏离哈迪温伯格平衡的variants,这是常用的表示基因分型错误的指标,二分型性状(binary traits)对于case,排除的标准为HWE p值<1e −10,对于control ,HWE p值<1e−6。对于数量性状来说,通常以HWE p value <1e‐6为标准。

样本层面的质控 Sample-level QC

  • 样本的丢失率 (Missingness of individuals):与SNP的丢失率类似,我们要排除掉高基因型丢失率的个体,通常的标准同样为98%。
  • 性别错误 (Sex discrepancy):有时数据录入会有错误,我们应基于X染色体的杂合性,确定是否有性别录入错误的个体。通常对于男性,X染色体的纯合性(homozygosity)估计值应高于0.8,女性应低于0.2.
  • 杂合性 (Heterozygosity):排除掉有过高或过低杂合性的个体,过高或过低杂合性通常意味着样本污染或是近亲繁殖。通常排除掉在平均杂合率在三个标准差以外的个体。
  • 亲缘 (Relatedness):基于所有样本两两之间的IBD来排除掉有亲缘关系的个体。通常的标准为需要排除二级亲属(second degree relatives),详见:预留链接。
  • 群体分层 (Population stratification):要去除掉非目标群体的个体(ethinic outlier),主要通过PCA等方法,详见:群体分层与主成分分析 Population structure & PCA

参考:

Marees, A.T., de Kluiver, H., Stringer, S., Vorspan, F., Curis, E., Marie-Claire, C., and Derks, E.M. (2018). A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research 27.

状态同源 / 血缘同源 IBS / IBD – 概念与计算(PLINK)

IBD与IBS均是,基于遗传信息,表示样本对之间亲缘关系的指标,具体定义如下:

血缘同源(Identity By Descent,IBD),子代中共有的等位基因来源于同一祖先。

状态同源(identical by state ,IBS),两个个体拥有相同的等位基因(不一定来源以同一祖先)。

The origin of IBD segments is depicted via a pedigree.

图1: 橙色IBD片段表示来自同一祖先的片段

通常IBD无法直接观测,但IBS可以通过两个体基因型算出。

个体 1个体2IBS
AAAA2
AAAa1
AAaa0
在某一基因座,两个体可能有 0个,1个,或2个相同的等位基因

IBD可以让我们了解两个体间的亲缘关系,虽然无法直接测得,但可以根据IBS以及等位基因频率的分布来推定。

PLINK中使用 PI_HAT 值来推定IBD的值。该方法基于隐马尔科夫模型 hidden Markov model (HMM),通过矩估计(method-of-moments)来计算 IBD=1, 2或0 的概率。

PI_HAT:为IBD比例 , 即 P(IBD=2) + 0.5*P(IBD=1),PI_HAT的值与对应关系如下所示:

  • PI_HAT=0 无亲缘关系
  • PI_HAT=0.25 表兄弟
  • PI_HAT=0.5 亲子或兄弟姐妹
  • PI_HAT=1 本人或同卵双胞胎

PLINK1.9中提供了–genome的选项,以计算 PI_HAT (注意,计算前强烈建议对SNP进行pruning)

输出文件会被写进 .genome的文件中,每一列的内容如下

FID1	Family ID for first sample
IID1	Individual ID for first sample
FID2	Family ID for second sample
IID2	Individual ID for second sample
RT	Relationship type inferred from .fam/.ped file
EZ	IBD sharing expected value, based on just .fam/.ped relationship
Z0	P(IBD=0)
Z1	P(IBD=1)
Z2	P(IBD=2)
PI_HAT	Proportion IBD, i.e. P(IBD=2) + 0.5*P(IBD=1)
PHE	Pairwise phenotypic code (1, 0, -1 = AA, AU, and UU pairs, respectively)
DST	IBS distance, i.e. (IBS2 + 0.5*IBS1) / (IBS0 + IBS1 + IBS2)
PPC	IBS binomial test
RATIO	HETHET : IBS0 SNP ratio (expected value 2)

参考:

https://www.cog-genomics.org/plink2/ibd

PLINK: A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses