Variant Normalization 变异的标准化

背景

VCF文件是一种灵活的,可以表示包括SNPs, indels 和CNV等多种变异类型的文件格式,但是VCF文件中变异的表示方式并不是唯一的,对同一变异的表示方式上的混淆会对后续分析造成影响。所以我们需要对这样的变异进行标准化,使其拥有唯一的(unique)表示方式。

变异标准化的定义

变异表示的标准化包含两个部分:

1,节俭原则 2,左对齐。

这两部分分别对应变异的长度与位置。


节俭原则 Parsimony

在表示一个变异(variant )时,节俭原则(parsimony )是指,在不使任何等位长度为0的情况下,用最少的核苷酸数来表示这个变异。

所以节俭原则意味着两点:

1 尽可能的用最少的核苷酸数来表示

2 但等位(allele)的长度至少为1不能为0

当一个变异的两个等位最左侧的核苷酸相同时,且删去这个相同的核苷酸后不会造成等位长度为零时,我们称这个变异在左侧是有冗余核苷酸的。

我们来看下面这个例子,前三组多核苷酸多态(Multi Nucleotide Polymorphism ,MNP)都有冗余的核苷酸,最后一组蓝色的变异的则负荷上述的节俭原则。

左对齐 Left alignment

左对齐的意思是,将变异起始位置向左移动到不能在移动为止。这是一个与插入和缺失变异相关的概念,目的是明确变异的位置(相对于明确长度的节俭原则)。

左对齐的定义如下:

当且仅当在保持其等位长度一定的情况下,无法再向左移动起始位置时,这个变异是左对齐的。

我们来看下面这个例子(一个未标准化的短重复序列):

红色:替代等位为空,不符合节俭原则

绿色:没有左对齐,但节俭

橙色:左对齐但不右节俭

蓝色:左对齐但不左节俭

紫色:左对齐,而且节俭 √

如何进行变异标准化:

目前有多种软件支持对VCF文件进行标准化,我们只用提供参考基因组以及输入文件就可以轻松的进行标准化:

例如,使用常用的bcftools进行标准化,命令如下所示:

bcftools norm -f ref.fa in.vcf -O z > out.vcf.gz

参考:

https://genome.sph.umich.edu/wiki/Variant_Normalization#Left_alignment