本文内容:
RaPID简介
RaPID算法
RaPID教程
注意事项
参考
RaPID简介
RaPID是一款用于在基因组数据中检测IBD(identity-by-descent segments)片段的工具,其特点是应用了PBWT(Positional Burrows-Wheeler Transform)算法,能够快速高效地完成检测。BWT被广泛应用于文件压缩与序列比对等领域,序列比对的BWA软件也利用的是这个算法。
IBD回顾:GWASLab:状态同源 / 血缘同源 IBS/ IBD

RaPID算法简介
第一步,通过从每个窗口(wi)内随机取一个变异位点,对输入的定像后的基因型进行多重随机投影。
第二步,对每个投影后的面板使用PBWT(Positional Burrows-Wheeler Transform)算法,找出截断值L以上长度的精确匹配序列。
第三步,收集上一步的精确匹配序列,当某一区域精确匹配序列多于一定数量时,就判定为IBD片段。
图中例子各参数为:长度的截断值为10,窗口大小为5,重复次数为4,成功判定需要的次数为2,不足2次的精确匹配被舍弃
RaPID教程
下载地址:
https://github.com/ZhiGroup/RaPID
RaPID输入文件:
- 遗产图谱文件格式(tab间隔):
<site_number> <genetic_location>
每一行包含位点索引以及位点的遗传位置,位点的顺序要与输入VCF文件中位点顺序相同。
该文件的位点顺序应该是单调上升的,且不能有缺失。
RaPID也提供了两个python脚本可以用来对异常图谱进行过滤与插值填充:
对 genetic mapping file 进行过滤
python filter_mapping_file.py <genetic_map> <filtered_map>
对遗传位置进行插值填充, 使位点与输入VCF中位点一一匹配
python interpolate_loci.py <filtered_map> <vcf_input_gzip> <output_map_file>
2. 定相过的VCF文件
参考:GWASLab:Eagle2单倍型定相工具 Haplotype phasing
RaPID_v.1.7 版本 具体使用方法
./RaPID_v.1.7 \
-i <input_file_vcf_compressed> \
-g <genetic_mapping_file> \
-d <min_length_in_cM> \
-o <output_folder> \
-w <window_size> \
-r <#runs> \
-s <#success>
使用作者提供的演示数据:
./RaPID_v.1.7 \
-i 4k_1e7.vcf.gz \
-g 4k_1e7_e0.001.g \
-d 5 \
-w 250 \
-r 10 \
-s 2 \
-o output_folder
RaPID会将在样本两两之间检测到的所有IBD片段以以下格式输出:
<chr_name> <sample_id1> <sample_id2> <hap_id1> <hap_id2> <starting_pos_genomic> <ending_pos_genomic> <genetic_length> <starting_site> <ending_site>
执行后会得到名为 results.max.gz 的结果
Create sub-samples..
Done!
zcat results.max.gz | head
chr1 0 256 0 0 189 9999752 9.99956 0 94991
chr1 6 1510 1 1 3282417 9616920 6.3345 31000 91249
chr1 18 1801 0 1 189 5186009 5.18582 0 49249
chr1 33 435 0 0 3523968 8873991 5.35002 33250 84249
chr1 42 1854 0 0 1002623 6026274 5.02365 9500 57249
chr1 44 794 1 1 3282417 9797410 6.51499 31000 92999
chr1 51 1394 1 0 3337555 9999752 6.6622 31500 94991
chr1 73 88 1 1 149874 6820265 6.67039 1500 64749
chr1 80 199 0 1 1831845 6974084 5.14224 17500 66249
chr1 82 1849 0 0 3445503 8974078 5.52858 32500 85249
注意事项
如果输入文件的变异密度较低的话,需要相应的减小窗口大小 -w 的值。 例如,对于UKBB,位点密度比示例数据中低了80倍,那么窗口小就应相应的从-w 250减小到-w 3.
参考:
- Naseri, Ardalan, Xiaoming Liu, Kecong Tang, Shaojie Zhang, and Degui Zhi. “RaPID: ultra-fast, powerful, and accurate detection of segments identical by descent (IBD) in biobank-scale cohorts.” Genome biology 20, no. 1 (2019): 143;
- Ultra-fast Identity by Descent Detection in Biobank-Scale Cohorts using Positional Burrows-Wheeler Transform Ardalan Naseri, Xiaoming Liu, Shaojie Zhang, Degui Zhi bioRxiv 103325;