连锁不平衡 linkage disequilibrium LD

连锁不平衡(linkage disequilibrium)是进化生物学与人类遗传学中一个十分重要的概念,因为遗传过程中很多因素能够影响它,而它又会作用于很多因素,包括选择,重组频率,突变率,遗传漂变,交配模式,群体结构等等。反过来看,连锁不平衡就是反应群体遗传过程的一个强有力的信号。

连锁不平衡 是指 不同基因座(loci)等位基因(allele)之间非随机(nonrandom)的关联

首先考虑简单的两基因座情况,设有A, B两个基因座,每个基因做各有两个等位基因,分别用1,2表示。假设每个单倍体型的频率如下所示:

HaplotypeFrequency
A_{1}B_{1}x_{11}
A_{1}B_{2}x_{12}
A_{2}B_{1}x_{21}
A_{2}B_{2}x_{22}

由上 单倍体型的频率 ,我们也可以简单计算得到各个等位基因的频率:

AlleleFrequency
A_1p1 = x_{11} + x_{12}
A_2p2 = x_{21} + x_{22}
B_1q1 = x_{11} + x_{21}
B_2q2 = x_{12} + x_{22}

如果这两个基因座互相独立不相关(也就是连锁平衡 linkage equilibrium 的状态),那么各个单倍型的频率就可以直接算出,为p1q1 ,p1,q2 , p2q1, p2q2

而实际情况中单倍型的频率对于不相关情况下的理论值会产生偏离(deviation),这个偏离原因即为连锁不平衡( linkage disequilibrium ),偏离的程度通常记为 D (连锁不平衡系数,coefficient of linkage disequilibrium

D = x_{11} - p_1q_1

下图表示了各单倍型频率,各等位基因频率与D之间的关系。

A_1A_2Total
B_1x_{11} = p_1q_1+Dx_{21} = p_1q_1-Dq_1
B_2x_{12} = p_1q_2-Dx_{22} = p_2q_2+Dq_2
Totalp_1p_21

但要注意的是,D值并不是一个用来衡量LD的很好的指标,因为D值会受等位基因频率影响,这使得我们无法比较不同频率的等位基因对之间连锁不平衡的大小。

Lewontin提出通过标准化D值来解决该问题,即用D值除以理论上D可能的最大绝对值:

D' = {{D}\over{D_{max}}}

其中D的理论最大绝对值为:

D_{max} = \begin{cases}    max\{-p_1p_2, -(1-p_1)(1-p_2)\}, \text{when } D < 0 ,\\   min\{p_1(1-p_2), (1-p_1)(p_2)\}, \text{when } D > 0. \end{cases}

但更多的时候我们使用相关系数(correlation coefficient)r2来衡量LD:

r^2 = {{D^2}\over{p_1(1-p_1)p_2(1-p_2)}}

Locuszoom等绘制regional plot的软件会用到r2。

一些Fine-mapping分析软件中则会使用到r,其主要区别是 r 会分单倍体型。

参考:

https://en.wikipedia.org/wiki/Linkage_disequilibrium

Montgomery Slatkin. Linkage disequilibrium — understanding the evolutionary past and mapping the medical future.

勘误:

2024/02/19 修改了Dmax式子中D>0 与 D<0写反的错误。感谢 @Rain 的指正。

《连锁不平衡 linkage disequilibrium LD》有3条评论

留下评论