使用 PLINK 去除重复 variants

在GWAS中,有时数据中会出现多个variants有相同的位置和等位基因,绝大多数情况下这些variants都是相同的重复。我们应当合并并去除这些重复。

plink1.9提供了如下命令来筛除重复的variants:

–list-duplicate-vars [‘require-same-ref’] [‘ids-only’] [‘suppress-first’]

具体用例

plink --file test --list-duplicate-vars ids-only suppress-first -out test-removed

–ids-only: 只输出重复snp的id,不输出位置信息

–suppress-first : 每一组重复的snp中,输出时去除第一个

运行后我们会得到 .dupvar文件,包含了所有重复的snp的id,这样在后续分析中,我们可以使用 –exclude 选项来将重复的snp剔除。(注意:去重是基于SNP的位置信息,而非ID,如果想基于ID去重,请使用PLINK2.0 的 –rm-dup 选项)

参考:

https://www.cog-genomics.org/plink/1.9/data#list_duplicate_vars

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s