背景
VCF文件是一种灵活的,可以表示包括SNPs, indels 和CNV等多种变异类型的文件格式,但是VCF文件中变异的表示方式并不是唯一的,对同一变异的表示方式上的混淆会对后续分析造成影响。所以我们需要对这样的变异进行标准化,使其拥有唯一的(unique)表示方式。
变异标准化的定义
变异表示的标准化包含两个部分:
1,节俭原则 2,左对齐。
这两部分分别对应变异的长度与位置。
节俭原则 Parsimony
在表示一个变异(variant )时,节俭原则(parsimony )是指,在不使任何等位长度为0的情况下,用最少的核苷酸数来表示这个变异。
所以节俭原则意味着两点:
1 尽可能的用最少的核苷酸数来表示
2 但等位(allele)的长度至少为1,不能为0
当一个变异的两个等位最左侧的核苷酸相同时,且删去这个相同的核苷酸后不会造成等位长度为零时,我们称这个变异在左侧是有冗余核苷酸的。
我们来看下面这个例子,前三组多核苷酸多态(Multi Nucleotide Polymorphism ,MNP)都有冗余的核苷酸,最后一组蓝色的变异的则负荷上述的节俭原则。

左对齐 Left alignment
左对齐的意思是,将变异起始位置向左移动到不能在移动为止。这是一个与插入和缺失变异相关的概念,目的是明确变异的位置(相对于明确长度的节俭原则)。
左对齐的定义如下:
当且仅当在保持其等位长度一定的情况下,无法再向左移动起始位置时,这个变异是左对齐的。
我们来看下面这个例子(一个未标准化的短重复序列):
红色:替代等位为空,不符合节俭原则
绿色:没有左对齐,但节俭
橙色:左对齐但不右节俭
蓝色:左对齐但不左节俭
紫色:左对齐,而且节俭 √

如何进行变异标准化:
目前有多种软件支持对VCF文件进行标准化,我们只用提供参考基因组以及输入文件就可以轻松的进行标准化:
例如,使用常用的bcftools进行标准化,命令如下所示:
bcftools norm -f ref.fa in.vcf -O z > out.vcf.gz
参考:
https://genome.sph.umich.edu/wiki/Variant_Normalization#Left_alignment