Locuszoom是一款非常好用的绘制region plot的软件,是GWAS研究中的必备软件之一。
Regional plot示例: https://my.locuszoom.org/gwas/881707/region/?chrom=3&start=45634967&end=46034967

Regional plot:横轴为染色体位置,左边纵轴为-log10(p),marker的颜色表示与leading SNP 的LD的大小,右侧纵轴则表示重组率。下方还标有gwas catalog中已知的与疾病相关的hit,以及该区域中基因的范围。该图主要用来用于精确定位因果SNP。
locuszoom官网: http://locuszoom.org/

该软件提供有最初的网页版(底层还是命令行版本),近来新发布的网页交互版(基于JavaScript),以及单独可下载的linux命令行版本(基于R/Python)。
网页版方便直接,命令行自定义程度更高。
本文以命令行版本为基础简要介绍locuszoom的使用方法,同时与网页版一一对照来方便理解与使用。
本文目录:
1. 命令行版本简介与软件与参考数据准备(**只看网页版的话可以跳过 1**)
2. 输入文件格式
3. 指定绘制的区间范围
4. 指定LD文件,族裔群体,参考基因组版本
**-》以上内容对应的网页版本**
5. 批量模式 ! Batch mode(命令行版本的优势所在)
**-》批量模式对应的网页版本**
6. 自制LD文件
7 额外功能
7.1指定多个参考SNP
7.2 使用GWAS catalog进行注释
7.3 精确定位的可信集
7.4 对多个SNP的注释
7.5 绘制额外的BED文件轨道
参考url
使用方法:
- 命令行版本简介 与 软件与参考数据准备 (只看网页版的话可以跳过 1)

命令行版本总体上与网页版一一对应,但可自定义设置的程度更高,目前仅支持linux版本,windows和mac用户只能使用网页版或通过虚拟机。
下载地址:https://github.com/statgen/locuszoom-standalone
注意我们需要下载: 程序 + 数据库 + LD信息
(*单独下载软件无法绘制图像,或是需要使用自制的LD信息)
目前的最新版本为1.4版,发布于2017-05-01,共有23G。
除此之外,我们还需要准备以下有版本要求的python和R:
1.Python 2.7+ (注意要使用PYTHON2!)
2.R 3.0+.
locuzoom下载完成后,解压并添加进环境后即可使用:
cd <directory where you want to place locuszoom>
tar zxf /path/to/locuszoom.tgz
ln -s bin/locuszoom /usr/local/bin/locuszoom #根据自己的环境变量制定
locuszoom的文件结构主要包括的内容如下所示:
locuszoom/
bin/
locuszoom (this is the locuszoom "executable")
locuszoom.R (the R script which is used by locuszoom for creating the plots)
dbmeister.py (script for creating custom user databases)
lzupdate.py (script for creating an updated copy of the provided locuszoom database)
conf/ (configuration file located here)
data/
database/ (SQLite file located here)
hapmap/ (hapmap genotype files)
1000G/ (1000G genotype files)
src/ (source code for locuszoom)
命令行locuszoom语法:
locuszoom [输入文件] [选项]
一个简单的例子:
locuszoom --metal Kathiresan_2009_HDL.txt --refgene FADS1
- 输入文件格式
locuszoom主要使用METAL 或者 EPACTS的文件格式,这里主要介绍METAL格式,因为其准备起来更加简单便捷。
METAL格式: 文件必须包含以tab分隔的下两列 1.markers 与 2.p-values
如下所
示

locuzoom在输入时的选项:
--metal 指定metal格式的输入文件名
--delim (可选)可以指定分隔符,默认为tab
--markercol 指定输入文件表示marker的列名,默认为"MarkerName"
--pvalcol 指定输入文件表示p值的列名,默认为"P-value"
--no-transform 当p已经转换为-log10(p)时,可以使用此选项跳过log转换
对应网页区块:

首先上传输入文件 , marker与P value的列名,以及指定分隔符

- 指定绘制的区间范围
在命令行版本中我们可以通过多种方式指定区间,包括
#2.1指定SNP与两侧的范围
--refsnp <your snp> --flank 500kb
#2.2指定SNP与区间的起止位点
--refsnp <your snp> --chr # --start <base position> --end <base position>
#2.3指定SNP与基因(绘制基因所在的范围)
--refsnp <your snp> --refgene <your gene>
#2.4 指定基因与两侧范围
--refgene <your gene> --flank 250kb
#2.5 指定基因与区间的起止位点
--refgene <your gene> --chr # --start <base position> --end <base position>
#2.6 区间的起止位点
--chr # --start <base position> --end <base position>
--flank
选项在这里指从起始和终止位点向外侧计算的距离,单位为kb, 在没有指定参考SNP时,locuzoom会自动选择最显著的SNP作为参考SNP。
网页版中指定绘制的区间范围所对应区块,填写方法与命令行版本一致:

4 指定LD文件,族裔群体,参考基因组版本
目前locuszoom内置了以下的组合,可以根据自己需要进行指定:
Genotype files available for:
--source hapmap
--build hg18
--pop YRI
--pop CEU
--pop JPT+CHB
--source 1000G_March2012
--build hg19
--pop AMR
--pop ASN
--pop AFR
--pop EUR
--source 1000G_June2010
--build hg18
--pop YRI
--pop CEU
--pop JPT+CHB
--source 1000G_Nov2014
--build hg19
--pop AMR
--pop ASN
--pop AFR
--pop EUR
--build hg38
--pop SAS
--pop EAS
--pop AMR
--pop AFR
--pop EUR
一个简单的使用例:
--pop ASN --build hg19 --source 1000G_March2012
#指定1000G_March2012数据,以hg19为参考基因坐标,来计算ASN族裔的LD
以上内容对应的网页版:
在Genome Build/LD Population中选择所使用的参考基因组版本与LD文件

有了以上信息就可以进行绘制。命令行中运行命令或是在网页版中点击Plot Data按钮。根据所绘制SNP数量多少,运行时间会有不同。等待即可。
5 批量模式 ! Batch mode(命令行版本的优势所在)
当我们有多个基因座,需要绘制多张regional plot,可以使用批量模式。
只需要通过 --hitspec
选项来指定一个包含多个区域信息的文件即可。
文件需要包含以下列:
- snp 2.chr 3.start 4.end 5.flank 6.run 7.m2zargs
该文件格式如下:

选项1-5与之单次模式的内容相同,run 是指是否指定该行进行绘制,m2zargs 则是对该行信息绘制时额外的参数。
对应的网页版区块与内容:

6 自制LD文件 (命令行版本)
可以通过--LD
选项来指定自己的LD文件,文件格式如下:

dprime列可以为空,但Rsq列必须为有效的数据。该文件以空格分隔,且必须包含header。
7 额外功能 (未完待续,持续更新)
7.1指定多个参考SNP
7.2 使用GWAS catalog进行注释
7.3 精确定位的可信集
7.4 对多个SNP的注释
7.5 绘制额外的BED轨道
参考:
https://genome.sph.umich.edu/wiki/LocusZoom_Standalone#User-supplied_LD