群体分化系数(Fst,Fixation index)是用来衡量两群体间遗传距离的指标,多基于群体的SNP数据来估计。
目前主流的定义有两种,分别基于等位基因频率,或是血缘同源(IBD)。
如果 是某个等位基因在整个群体里的频率,
是等位基因在不同亚群体之间的被群体大小加权后的频率的方差(组间方差),
是整个群体的等位基因频率的方差。那么Fst可以被定义为:
Wright的定义表示Fst衡量了群体结构可以解释的遗传变异的量。换句话说,衡量的是不属于亚群内多样性的多样性(组间多样性)所占总体多样性的比值,其中多样性通过两个随机抽取的等位基因是不同的概率估计,也就是2p(1-p)。
如果在第i个群体的等位基因频率为pi,相对大小为ci,那么Fst可以表示为:
或者我们可以将Fst表示为:
其中f0是给定两个来自同一亚群体的个体,这两个个体血缘同源(IBD)的概率,
则是 给定两个来自总体的个体,这两个个体血缘同源(IBD)的概率。
通过这样的定义,Fst也可以被理解为相比于整体,两个个体在亚群体中相似性的高低。
实践中,Fst定义中所需要的数据一般都很难直接测量,所以通常我们都采用估算的方法。对于DNA序列数据,一个最简单的估计值就是:
其中与
分别代表两个不同亚群或相同亚群的个体之间,成对等位基因之间不同的平均值(average number of pairwise differences)。
参考: