易感性-阈值模型 Genetic liability, Threshold model

易感性-阈值模型是遗传流行病学中重要的理论模型之一。

Liability 易感性

易感性是 遗传因素 环境因素 对某多因子疾病的效应 的总称。因为易感性是一个隐变量(latent variable),实际上很难直接测量某个特定个体的易感性,但我们可以通过某群体中发病个体数量来估计该群体对于疾病的易感性。

Threshold Model 阈值模型

易感性-阈值模型(liability -threshold model)是我们用来分析非孟德尔遗传的(non-Mendelian)分类(categorical)表型(例如二分类表型 binary traits)的基本模型之一,如下图所示,通常我们认为易感性服从一个N(0,1)的正态分布。当某个个体的集聚的易感性超过了阈值T时就会发病,阴影区域的面积表述了在这个群体中该疾病的流行率(prevalence)

对于某个疾病可以有多个阈值,分别对应疾病的不同严重程度。

参考:

https://onlinelibrary.wiley.com/doi/full/10.1002/0470011815.b2a05036

遗传力 Heritability 与 Missing heritability

本文关键词: Heritability, h2, family heritability , SNP heritability, GWAS heritability , Missing heritability


遗传力的基础概念

遗传力(Heritability)是我们理解遗传与环境因素对性状影响的基础,定义为遗传方差占性状方差(总方差)的比值,可以理解为遗传因素对性状的影响,数学上以h2表示。

通常根据对遗传方差的定义而分为广义与狭义遗传力:

广义遗传力 broad-sense heritability

其中VP = VG + VE, VP为性状方差,VE为环境方差(也包括测量误差等),而分子的VG为遗传方差。

遗传方差VG也可进一步细分为

VA是加性遗传效应的方差,VNA是非加性遗传效应的方差 (上位与显性遗传效应)

加性遗传效应是指当两个或多个基因对于某一性状,或是单个基因的不同等位基因对于某一性状的整体作用,等于它们单独作用之和。

非加性遗传效应 则包括 上位与显性遗传效应 。

因为对于绝大多数复杂性状,很少有证据证明有 非加性遗传效应存在,所以我们目前聚焦于主要考虑 加性遗传效应 的 狭义遗传力,

狭义遗传力 narrow-sense heritability


遗传力的估计

我们有多种方法可以估计遗传力h2的大小,目前主要的方法有三种,通过双胞胎研究,SNP或是GWAS来估计。

h2 family : 双胞胎研究,通过比较同卵与异卵双胞胎的相似性,计算得到h2,通常为这三种中最高。

h2 SNP :GWAS研究所用chip上所有variants共同解释的方差 与 性状方差的比值,比 h2 family 低,但会显著高于h2 GWAS。可以使用GCTA的GREML模型来估计。(使用GCTA (GREML)来估计SNP-遗传力 SNP Heritability )

h2 GWAS :仅由GWAS所发现的某疾病相关variants解释的方差 与 性状方差的比值 ,三者中最低。

一般情况下,三者的关系:

更直观的关系如下图所示:

图一:三种遗传力的关系。(引自:The contribution of genetic variants to disease depends on the ruler,2014)

Missing and hidden heritability

GWAS研究中一个核心问题便是 Missing heritability, 定义为 h2 familyh2 GWAS 之间的差值。 h2 GWAS 之所以低于 h2 family ,潜在的原因包括:非加性遗传效应(尽管目前证据很少),效应量大的稀有变异(rare variants),或是双胞胎研究中由于共同的环境因素而造成的过高估计。

Missing heritability 又可细分为 still- missing heritability 与 hidden heritability 。 still- missing heritability 为 h2 family 与 h2 SNP 之间的差,Yang 认为可能的原因是在GWAS研究中由于样本数量的限制,大多数效应量较小的遗传效应无法被可靠地检测。

而 hidden heritability 则为 h2 SNP 与 h2 GWAS 的差。对它的理解建立在Fisher最初对于无穷小模型(infinitesimal model),即多数变异都只有很小的效应。在GWAS研究中,由于我们所选显著阈值的高低,遗传力或许并不是 消失( missing ) 而是被隐藏( hidden )了。另一种可能则是,人群的异质性(heterogeneity.),因为 h2 GWAS 大多来自包含多群体的meta分析,而遗传效应在这些群体中的异质性也可能使 h2 GWAS 偏低。

如何估计SNP遗传力:

使用GCTA (GREML)来估计SNP-遗传力 SNP Heritability

参考:

An Introduction to Statistical Genetic Data Analysis.

连锁不平衡 linkage disequilibrium LD

连锁不平衡(linkage disequilibrium)是进化生物学与人类遗传学中一个十分重要的概念,因为遗传过程中很多因素能够影响它,而它又会作用于很多因素,包括选择,重组频率,突变率,遗传漂变,交配模式,群体结构等等。反过来看,连锁不平衡就是反应群体遗传过程的一个强有力的信号。

连锁不平衡 是指 不同基因座(loci)等位基因(allele)之间非随机(nonrandom)的关联

首先考虑简单的两基因座情况,设有A, B两个基因座,每个基因做各有两个等位基因,分别用1,2表示。假设每个单倍体型的频率如下所示:

HaplotypeFrequency
A_{1}B_{1}x_{11}
A_{1}B_{2}x_{12}
A_{2}B_{1}x_{21}
A_{2}B_{2}x_{22}

由上 单倍体型的频率 ,我们也可以简单计算得到各个等位基因的频率:

AlleleFrequency
A_1p1 = x_{11} + x_{12}
A_2p2 = x_{21} + x_{22}
B_1q1 = x_{11} + x_{21}
B_2q2 = x_{12} + x_{22}

如果这两个基因座互相独立不相关(也就是连锁平衡 linkage equilibrium 的状态),那么各个单倍型的频率就可以直接算出,为p1q1 ,p1,q2 , p2q1, p2q2

而实际情况中单倍型的频率对于不相关情况下的理论值会产生偏离(deviation),这个偏离原因即为连锁不平衡( linkage disequilibrium ),偏离的程度通常记为 D (连锁不平衡系数,coefficient of linkage disequilibrium

D = x_{11} - p_1q_1

下图表示了各单倍型频率,各等位基因频率与D之间的关系。

A_1A_2Total
B_1x_{11} = p_1q_1+Dx_{21} = p_1q_1-Dq_1
B_2x_{12} = p_1q_2-Dx_{22} = p_2q_2+Dq_2
Totalp_1p_21

但要注意的是,D值并不是一个用来衡量LD的很好的指标,因为D值会受等位基因频率影响,这使得我们无法比较不同频率的等位基因对之间连锁不平衡的大小。

Lewontin提出通过标准化D值来解决该问题,即用D值除以理论上D可能的最大绝对值:

D' = {{D}\over{D_{max}}}

其中D的理论最大绝对值为:

D_{max} = \begin{cases}    max\{-p_1p_2, -(1-p_1)(1-p_2)\}, \text{when } D < 0 ,\\   min\{p_1(1-p_2), (1-p_1)(p_2)\}, \text{when } D > 0. \end{cases}

但更多的时候我们使用相关系数(correlation coefficient)r2来衡量LD:

r^2 = {{D^2}\over{p_1(1-p_1)p_2(1-p_2)}}

Locuszoom等绘制regional plot的软件会用到r2。

一些Fine-mapping分析软件中则会使用到r,其主要区别是 r 会分单倍体型。

参考:

https://en.wikipedia.org/wiki/Linkage_disequilibrium

Montgomery Slatkin. Linkage disequilibrium — understanding the evolutionary past and mapping the medical future.

勘误:

2024/02/19 修改了Dmax式子中D>0 与 D<0写反的错误。感谢 @Rain 的指正。

哈迪温伯格平衡 Hardy– Weinberg equilibrium

哈迪温伯格平衡是群体遗传学中一个十分重要的概念,它描述了在一个群体中某基因型的概率与分布。

具体来讲,哈迪温伯格平衡是指等位基因与基因型的频率,在无其他进化干扰因素存在的情况下,在代与代之间将会保持恒定。

换一句话说,如果某个群体里对于某个基因来说处于 哈迪温伯格平衡 ,那么就可以说这个基因没有在进化,该基因的等位基因频率在代与代之间也会保持恒定。

但 哈迪温伯格平衡 需要满足以下假设:

  • 没有自然选择 no natural selection
  • 没有遗传漂变 no genetic drift
  • 一个封闭的群体,没有大规模迁入迁出 no significant migration in or out of the population
  • 没有变异 no mutations
  • 没有选型交配 no assortative mating
  • 没有近亲交配 no inbreeding

在某一满足 哈迪温伯格平衡 假设的群体中,设 p为等位基因A的频率,q为等位基因a的频率;那么p2, 2pq, q2就表示个基因型的概率;

哈迪温伯格平衡 可以用如下的公式表示:

如果p=0.3 , q=0.7, 那么AA的频率就为9%,Aa为42%,aa为49%。

参考资料:

An Introduction to Statistical Genetic Data Analysis

GWAS入门文章与书籍推荐

对于统计遗传学(全基因组关联分析)的初学者来说,最难得莫过于入门,

好在GWAS问世以来已经过了十多年,该研究领域也形成了一定规模,基础内容逐渐充实,2020年出版的 An Introduction to Statistical Genetic Data Analysis 网罗该领域内研究背景,基础知识,常用工具介绍,代码实操等。

本书第一部分主要介绍相关基础内容,涵盖群体遗传学的基本概念,统计学基础,人类进化(Human evolution),GWAS,风险评分(PRS)等等基础内容。

第二部分介绍遗传数据的处理与使用,质控(QC),人群分层,PCA,等等GWAS的操作步骤。

第三部分则是介绍GWAS下游的分析方法,包括基因环境相互作用,PRS,数据可视化,MTAG,孟德尔随机化等。

图1: An Introduction to Statistical Genetic Data Analysis 封面

原书链接: https://mitpress.mit.edu/books/introduction-statistical-genetic-data-analysis

这本书难度适中,适合初学者入门,对于理解基础概念会有很大帮助,但深度不够,个人建议可以快速阅读这本书,掌握群体遗传学研究的大致框架后,针对感兴趣的领域查找文献原文来了解细节。也可以阅读Nature Reviews Genetics上关于GWAS的综述文章,对本领域入门很有帮助。


对于希望尝试更硬核内容的同学们,我还强烈推荐这本书,Handbook of statistical genomics,本书更偏向数理原理,有大量的公式推导等,非常刺激,对于无数理基础的初学者则不太推荐此书。

图2: Handbook of statistical genomics 封面

除了书籍以外,其他适合入门的资料还包括:

密西根大学的开设的biostats 666这门课的slides(听着这课的名字是不是就很6)(请记住这个这位大佬的网站Genome Analysis Wiki 以后你会用到无数次的),

Biostatistics 666: Main Page

该课程也涵盖了统计遗传学中重要的概念知识点,包括了基础概念以及部分统计原理,适合快速浏览:

图3 :Biostatistics 666: slides 截图

华盛顿大学遗传统计学夏季学校 SISG 讲义:

除了理论基础,还有代码实操等。可以跟着代码一起练习,非常适合初学者。

GWAS and Sequencing Data

图4 : SISG slides 截图

另外就是大阪大学遗传统计学夏季学校的讲义分享, 我最喜欢的零基础入门其实是这个,图文并茂, 概念细节比较到位(但是是日语的,有机会了给大家翻译):

https://www.slideshare.net/YukinoriOkada/presentations

最后,当然,还有GWASLab的主页:GWASLab

博客连接:GWAS文章索引 – Article index

以及GWAS相关文章汇总:GWASLab:全基因组关联分析GWAS文章汇总(持续更新)

我会持续更新统计遗传学,生物信息学等相关中文内容,感谢大家的关注!