本文是MR系列的第一篇,孟德尔随机化的简介,该系列会介绍孟德尔随机化的基础概念,统计方法分类,常见误区与实践操作等内容。
目录:
- 1.背景与目的
- 1.1 明确因果关系
- 1.2 RCT是金标准,但缺点明显
- 1.3 孟德尔随机化的本质
- 2.孟德尔随机化的统计学方法 – 工具变量
- 3.核心假设
- 3.1 关联性假设
- 3.2 排他性限制
- 3.3 独立性假设
- 4.孟德尔随机化的优势
1 背景与目的
1.1目的是明确因果关系
在关联分析中我们时常面对的一个问题便是 我们很难确定一个变量是否是真正的因果变量,而非有其他未观测的因素同时影响这个变量与结果,造成这个变量与结果相关联。在循证医学中,或是制定干预策略时,明确因果性是十分必要的。
这个问题实际上与内生性 endogeneity 相关,包括: 反向因果关系 reverse causation, 忽略的混淆变量造成的偏倚 omitted variable bias due to confounding, 测量误差measurement error, 以及双向因果关系bidirectional causality等等问题。(这里的内生性在统计学上是指在回归分析中,解释变量(x)与误差项相关。)
1.2. RCT是金标准,但缺点明显
一般来说,明确因果关系的金标准时随机对照试验 RCT randomized control trial (RCT), 即对受试者随机分为对照组和实验组,以研究某个因素的影响。但现实中,要完成随机对照试验的难度非常高,需要大量的人力物力,有时因为伦理问题,对某个因素的研究几乎是不可能的。这时我们就要借助其他方法,而孟德尔随机化就是其中之一。
1.3. 孟德尔随机化与RCT的相似性
孟德尔随机化(MR,Mendelian randomization)便是为了解决以上问题而开发的方法,MR与RCT直接相关,两者有很高的相似性,如下图所示。

孟德尔随机化的核心其实是利用了孟德尔第二定律,也就是自由组合规律(law of independent assortment),当具有两对(或更多对)相对性状的亲本进行杂交,在子一代产生配子时,在等位基因分离的同时,非同源染色体上的基因表现为自由组合,这一过程类似于随机对照试验中的随机分组,所以我个人理解的孟德尔随机化就是 基于孟德尔第二定律的随机对照试验。
2 孟德尔随机化的统计学方法 – 工具变量
孟德尔随机化在统计学上的本质实际是利用工具变量(Instrumental variables)来研究因果性,这一方法常用在经济学研究中。
工具变量简单来说就是,一个与X相关,但与被忽略的混淆因素以及Y不相关的变量。在经济学研究中工具变量可以是政策改革,自然灾害等等,而在遗传学中,这个变量就是基因。
如果一个基因变异Z 是某个暴露因素X的因果变量,并且对结果Y没有直接因果关系,那么这个基因变异Z与结果Y的关联,只能通过X对Y的因果关系而被观察到(X->Y)。
2.1 两阶段最小二乘法
通常我们可以用两阶段最小二乘法(2SLS,2 stage least squared method)来估计X对Y的效应:
考虑一种最简单的单样本的情况,有一个基因变异Z,与Z相关的因素X,以及与Z不相关的结果Y,
我们想探究X与Y之间的因果关系。
第一阶段,X对工具变量进行回归,

第二阶段,Y对第一阶段X的预测值进行回归,

合并后可以化为Y直接对工具变量进行回归。

我们所关心的系数β2SLS实际上也等同于两段协方差的比值

2.2 两样本MR
另一种常见的情况则是两样本MR,如果我们有一个与X相关联的工具变量,我们只有在X对Y有因果关系的情况下,才能观测到这个工具变量与Y的关联。
这意味着βiv,y = βiv,x 乘以 βx,y。也就是说,我们可以不用通过X与Y的回归来估计β,
而是可以简单地通过 βx,y = βiv,y / βiv,x 来计算 X对Y的效应量。
这就意味着与两阶段最小二乘法相对,我们可以利用两个独立的GWAS 的概括性统计量来计算这个比值。这种方法通常叫做两样本MR.
当然MR还有其他更复杂的统计模型方法,这里不做深究,有兴趣的朋友的可以看这篇文章:预留链接
- 核心假设:
当然,既然是统计模型那就要满足模型的基本假设,通常情况下MR建立在几点基本假设之上,
主要假设:
3.1 遗传变异必须与暴露因素X强相关。(关联性假设),例如:弱工具变量的使用会导致估计出现偏倚。
3.2 遗传变异不能与结果直接相关。(排他性限制),例如:可能影响因素包括多效性等。
3.3 遗传变异不能与任何可能的混淆因素相关 (独立性假设),例如:人群分层
其他假设:
3.4 不存在选型交配 No genetic assortative mating,例如:人们经常会与自己教育和经济水平相似的人结婚。
3.5 对所有个体,IV对于X的影响方向是相同的。例如:潜在的上位效应与GxE基因与环境的相互作用都可能会影响此假设。
- 总结来看,孟德尔随机化以基因型作为工具变量的优势是:
4.1 遗传相关中,因果关系的方向是确定的,遗传多样性导致了不同的表型,反之则不成立
4.2 一般情况下我们所测量的环境暴露因素都或多或少与行为,社会,心理等因素相关,造成偏倚。但遗传变异则不受这些混淆因素影响。
4.3 相对来说,遗传变异与其效应的测量误差较小。
4.4 并不一定要找到因果SNP,一个与因果SNP处于LD的SNP即可满足假设条件。
4.5.目前GWAS的数据相对容易获取。
参考:
Melinda C. Mills, Nicola Barban, and F. C. T. An Introduction to Statistical Genetic Data Analysis. (2020).
Curr Epidemiol Rep . 2017;4(4):330-345. doi: 10.1007/s40471-017-0128-6. Epub 2017 Nov 22.
One thought on “孟德尔随机化系列之一:基础概念 Mendelian randomization I”