PLINK 1.9 / 2 基本使用方法

更新版(英文): https://cloufield.github.io/GWASTutorial/04_Data_QC/

Plink 是全基因组关联分析中最为常用的软件,其主要用途是对于原始数据的QC质控(relatedness, population structure等),数据格式转换(ped/map, bed/bim/fam, VCF, bgen等),基础数据的计算与统计(MAF,fst,grm等),以及基于线性回归和逻辑斯蒂回归的关联分析(linear/ logistic)等。 本文主要讲解Plink的基本使用方法以及常用功能。

Plink目前常用的有两个版本,plink1.9以及plink2。 Plink2主要针对日益增长的数据量,进行了多线程优化,大幅提升了处理效率。

plink链接:

plink1.9:https://www.cog-genomics.org/plink/

plink2: https://www.cog-genomics.org/plink/2.0/

首先介绍plink1.9中最为常用的数据格式:

1.ped,pedigree file。ped文件一般包含6+2N列,第一至六列分别为 1. Family ID 2. Individual ID 3.Mother ID 4.Father ID 5.Sex 6.Phenotype。第六列以后为各个SNP的等位基因,两列一组,可以使用具体的碱基,也可以使用拷贝数(0,1)。

2. map,与ped文件相伴随的文件,主要包含ped文件中SNP的位置信息。一般包含4列。分别是1. 染色体号 2.SNP ID 3.遗传图距(单位为摩根或厘摩,通常分析不需要这一列,使用哑值(dummy value) 0 填充) 4.碱基对坐标。每行一个SNP,顺序与ped文件中的SNP相对应。

因为纯文本格式占用大量储存空间,实际操作中尽量使用二进制格式,一组ped/map文件可转换成一组bed/bim/fam文件。

3.bed ,二进制格式,存储基因型,可以想象成ped文件中除去前6列,剩下基因型数据组成的矩阵

4.bim ,纯文本,存储SNP索引 (map文件 + 两列allele信息 )

5.fam ,纯文本,存储pedigree (ped文件的前六列)

6.phenotype/covariates file (optional) ,表型与协变量文件,纯文本,该文件非必须,但表型与协变量通常使用单独的纯文本文件提供(为了准备与使用上的便捷)。该文件通常包含1.family ID 2.Individual ID, 第三列及以后为表型或协变量(常用的如年龄,性别,主成分等)。


接下来简单介绍plink的命令行语法

主要可分成三部分 1.输入 2.操作 3.输出

1.输入主要是上述的ped/map 或 bed/bim/fam文件

#ped/map: –file test 如为一组文件可只输入前缀

–bfile test

plink [输入文件] [操作] [输出文件]
plink --file input_prefix --assoc --out output_prefix

plink 格式的转换

参考文献:

1.plink官方文档

2.A tutorial on conducting genome-wide association studies: Quality control and statistical analysis

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s