使用PLINK检测纯合性片段 ROH(Runs of homozygosity)


本文内容

ROH定义
不同群体ROH的特征
检测ROH的方法
使用PLINK检测ROH

ROH的定义

对于个体,其基因组上的一段区域内所有位点均为纯合的区域,被称为一段纯合性片段 (Runs of homozygosity,ROH). ROH的出现通常是由于个体来自父母双方的单倍体型是相同的,而这个单倍体型又是从过去某个时间点的共同祖先继承而来。ROH的概念不依赖于已知的家系,也不需要一个基线群体。但实际操作中,ROH通常规定有一个基于可用基因型密度的最小的长度,以判别是因为IBD而产生的ROH,或仅仅是概率偶然。

不同群体ROH的特征

不同的群体史会产生不同的长短ROH的分布:

在一个非近交群体(outbred populations )中,ROH的总数量与总长度与该群体的有效样本量有关,较小的群体趋向于有更多的ROH而较大的群体则趋向于有较少的ROH。

在混合群体(Admixed populations)中,由于该群体的祖先群体共享的祖先成分较远,所以混合群体的ROH通常少于其相应的祖先群体。

在近亲群体(Consanguineous communities)中,与非近交群体相比,会有更长的ROH,这是由于时间上较近的近亲交配,

经历过人口瓶颈( population bottleneck)的群体则会携带大量的较短的ROH,显示其更深层的父母的亲缘关系。

而经历过人口瓶颈且叠加近亲交配的群体则会有最高程度的ROH。

检测ROH的方法

目前使用最多的检测方法为PLINK中采用的观测法

PLINK采用一个固定大小的滑窗,对每条染色体进行扫描,以寻找连续的纯合SNP。 PLINK首先计算包含某个SNP的完全纯合滑窗的比例,如果该比例超过事先设定好的阈值,那么这个SNP就被认为是在一段ROH中。在每个滑窗中可以指定一定数量的缺失或是杂合的SNP,以包含基因定型错误,失败或是稀有变异等情况。最后,如果在某个片段中连续纯合SNP的数量超过一个数量或距离阈值(SNP数量或是染色体的距离),那么就可以判定这个片段是ROH。

使用PLINK检测ROH

示例代码如下所示:

plink \
        --bfile ${input} \
        --homozyg \
        --homozyg-density 50 \ 一段ROH中每50kb必须有1个SNP
        --homozyg-gap 100 \ 如果连续两个SNP的间隔大于100kb,那么就不能归为同一个ROH
        --homozyg-kb 500 \ 只检测长度大于500kb的ROH
        --homozyg-snp 50 \ 只检测长度超过50个SNP的ROH
        --homozyg-window-het 1 \ ROH滑窗中可以允许有一个SNP位点为杂合
        --homozyg-window-snp 50 \ 滑窗大小为50个SNP
        --homozyg-window-threshold 0.05 \ 包含某个SNP的完全纯合滑窗的比例至少为5%
        --out ${output}

计算完成后会得到 .hom 与.hom.indiv 等文件

.hom 文件包含了每段ROH的具体信息

FID IID PHE CHR SNP1 SNP2 POS1 POS2 KB NSNP DENSITY PHOM PHET
1 1 -9 chr1 rsxxx rsxxx 12345 67891 5.5 123 9.17 0.99 0.07

hom.indiv文件则是包含了对每个个体ROH汇总信息,包括总长度与总个数

FID IID PHE NSEG KB KBAVG
1   1   -9  50   75000  1500

这里的NSEG就是NROH,KB则是SROH

根据上面两个文件就可以做出SROH-NROH图

或是 ROH长度分层的分布图

来判断目标群体的群体特征。

参考:

  1. Ceballos, F. C., Joshi, P. K., Clark, D. W., Ramsay, M. & Wilson, J. F. Runs of homozygosity: windows into population history and trait architecture. Nat. Rev. Genet. 2018 194 19, 220–234 (2018).https://www.nature.com/articles/nrg.2017.109
  2. Identity-by-descent – PLINK 1.9