在GWAS中,有时数据中会出现多个variants有相同的位置和等位基因,绝大多数情况下这些variants都是相同的重复。我们应当合并并去除这些重复。
plink1.9提供了如下命令来筛除重复的variants:
–list-duplicate-vars [‘require-same-ref’] [‘ids-only’] [‘suppress-first’]
具体用例
plink --file test --list-duplicate-vars ids-only suppress-first -out test-removed
–ids-only: 只输出重复snp的id,不输出位置信息
–suppress-first : 每一组重复的snp中,输出时去除第一个
运行后我们会得到 .dupvar文件,包含了所有重复的snp的id,这样在后续分析中,我们可以使用 –exclude 选项来将重复的snp剔除。(注意:去重是基于SNP的位置信息,而非ID,如果想基于ID去重,请使用PLINK2.0 的 –rm-dup 选项)
参考:
https://www.cog-genomics.org/plink/1.9/data#list_duplicate_vars