本文内容
ROH定义
不同群体ROH的特征
检测ROH的方法
使用PLINK检测ROH
ROH的定义
对于个体,其基因组上的一段区域内所有位点均为纯合的区域,被称为一段纯合性片段 (Runs of homozygosity,ROH). ROH的出现通常是由于个体来自父母双方的单倍体型是相同的,而这个单倍体型又是从过去某个时间点的共同祖先继承而来。ROH的概念不依赖于已知的家系,也不需要一个基线群体。但实际操作中,ROH通常规定有一个基于可用基因型密度的最小的长度,以判别是因为IBD而产生的ROH,或仅仅是概率偶然。
不同群体ROH的特征
不同的群体史会产生不同的长短ROH的分布:
在一个非近交群体(outbred populations )中,ROH的总数量与总长度与该群体的有效样本量有关,较小的群体趋向于有更多的ROH而较大的群体则趋向于有较少的ROH。
在混合群体(Admixed populations)中,由于该群体的祖先群体共享的祖先成分较远,所以混合群体的ROH通常少于其相应的祖先群体。
在近亲群体(Consanguineous communities)中,与非近交群体相比,会有更长的ROH,这是由于时间上较近的近亲交配,
经历过人口瓶颈( population bottleneck)的群体则会携带大量的较短的ROH,显示其更深层的父母的亲缘关系。
而经历过人口瓶颈且叠加近亲交配的群体则会有最高程度的ROH。

检测ROH的方法
目前使用最多的检测方法为PLINK中采用的观测法
PLINK采用一个固定大小的滑窗,对每条染色体进行扫描,以寻找连续的纯合SNP。 PLINK首先计算包含某个SNP的完全纯合滑窗的比例,如果该比例超过事先设定好的阈值,那么这个SNP就被认为是在一段ROH中。在每个滑窗中可以指定一定数量的缺失或是杂合的SNP,以包含基因定型错误,失败或是稀有变异等情况。最后,如果在某个片段中连续纯合SNP的数量超过一个数量或距离阈值(SNP数量或是染色体的距离),那么就可以判定这个片段是ROH。
使用PLINK检测ROH
示例代码如下所示:
plink \
--bfile ${input} \
--homozyg \
--homozyg-density 50 \ 一段ROH中每50kb必须有1个SNP
--homozyg-gap 100 \ 如果连续两个SNP的间隔大于100kb,那么就不能归为同一个ROH
--homozyg-kb 500 \ 只检测长度大于500kb的ROH
--homozyg-snp 50 \ 只检测长度超过50个SNP的ROH
--homozyg-window-het 1 \ ROH滑窗中可以允许有一个SNP位点为杂合
--homozyg-window-snp 50 \ 滑窗大小为50个SNP
--homozyg-window-threshold 0.05 \ 包含某个SNP的完全纯合滑窗的比例至少为5%
--out ${output}
计算完成后会得到 .hom 与.hom.indiv 等文件
.hom 文件包含了每段ROH的具体信息
FID IID PHE CHR SNP1 SNP2 POS1 POS2 KB NSNP DENSITY PHOM PHET
1 1 -9 chr1 rsxxx rsxxx 12345 67891 5.5 123 9.17 0.99 0.07
hom.indiv文件则是包含了对每个个体ROH汇总信息,包括总长度与总个数
FID IID PHE NSEG KB KBAVG
1 1 -9 50 75000 1500
这里的NSEG就是NROH,KB则是SROH
根据上面两个文件就可以做出SROH-NROH图

或是 ROH长度分层的分布图

来判断目标群体的群体特征。
参考:
- Ceballos, F. C., Joshi, P. K., Clark, D. W., Ramsay, M. & Wilson, J. F. Runs of homozygosity: windows into population history and trait architecture. Nat. Rev. Genet. 2018 194 19, 220–234 (2018).https://www.nature.com/articles/nrg.2017.109
- Identity-by-descent – PLINK 1.9