遗传力 Heritability 与 Missing heritability

本文关键词: Heritability, h2, family heritability , SNP heritability, GWAS heritability , Missing heritability


遗传力的基础概念

遗传力(Heritability)是我们理解遗传与环境因素对性状影响的基础,定义为遗传方差占性状方差(总方差)的比值,可以理解为遗传因素对性状的影响,数学上以h2表示。

通常根据对遗传方差的定义而分为广义与狭义遗传力:

广义遗传力 broad-sense heritability

其中VP = VG + VE, VP为性状方差,VE为环境方差(也包括测量误差等),而分子的VG为遗传方差。

遗传方差VG也可进一步细分为

VA是加性遗传效应的方差,VNA是非加性遗传效应的方差 (上位与显性遗传效应)

加性遗传效应是指当两个或多个基因对于某一性状,或是单个基因的不同等位基因对于某一性状的整体作用,等于它们单独作用之和。

非加性遗传效应 则包括 上位与显性遗传效应 。

因为对于绝大多数复杂性状,很少有证据证明有 非加性遗传效应存在,所以我们目前聚焦于主要考虑 加性遗传效应 的 狭义遗传力,

狭义遗传力 narrow-sense heritability


遗传力的估计

我们有多种方法可以估计遗传力h2的大小,目前主要的方法有三种,通过双胞胎研究,SNP或是GWAS来估计。

h2 family : 双胞胎研究,通过比较同卵与异卵双胞胎的相似性,计算得到h2,通常为这三种中最高。

h2 SNP :GWAS研究所用chip上所有variants共同解释的方差 与 性状方差的比值,比 h2 family 低,但会显著高于h2 GWAS。可以使用GCTA的GREML模型来估计。(使用GCTA (GREML)来估计SNP-遗传力 SNP Heritability )

h2 GWAS :仅由GWAS所发现的某疾病相关variants解释的方差 与 性状方差的比值 ,三者中最低。

一般情况下,三者的关系:

更直观的关系如下图所示:

图一:三种遗传力的关系。(引自:The contribution of genetic variants to disease depends on the ruler,2014)

Missing and hidden heritability

GWAS研究中一个核心问题便是 Missing heritability, 定义为 h2 familyh2 GWAS 之间的差值。 h2 GWAS 之所以低于 h2 family ,潜在的原因包括:非加性遗传效应(尽管目前证据很少),效应量大的稀有变异(rare variants),或是双胞胎研究中由于共同的环境因素而造成的过高估计。

Missing heritability 又可细分为 still- missing heritability 与 hidden heritability 。 still- missing heritability 为 h2 family 与 h2 SNP 之间的差,Yang 认为可能的原因是在GWAS研究中由于样本数量的限制,大多数效应量较小的遗传效应无法被可靠地检测。

而 hidden heritability 则为 h2 SNP 与 h2 GWAS 的差。对它的理解建立在Fisher最初对于无穷小模型(infinitesimal model),即多数变异都只有很小的效应。在GWAS研究中,由于我们所选显著阈值的高低,遗传力或许并不是 消失( missing ) 而是被隐藏( hidden )了。另一种可能则是,人群的异质性(heterogeneity.),因为 h2 GWAS 大多来自包含多群体的meta分析,而遗传效应在这些群体中的异质性也可能使 h2 GWAS 偏低。

如何估计SNP遗传力:

使用GCTA (GREML)来估计SNP-遗传力 SNP Heritability

参考:

An Introduction to Statistical Genetic Data Analysis.

Ti/Tv ratio (Ts/Tv ratio) 的参考值与意义

在WGS中,我们通常使用Ti/Tv ratio (Ts/Tv ratio) 来评估 variants call的质量。Ti/Tv即为结果中 transitions 与 transversions 的比值。

Ti(Ts)是指:transitions 同类核苷酸之间的变异 (嘌呤->嘌呤,嘧啶->嘧啶),如 C <-> T , A <-> G 。

Tv是指:transversions 不同类核苷酸之间的变异(嘌呤-> 嘧啶 , 嘌呤 ->嘧啶) ,如 C<->A , T<->G等。

figure3

图1: Ti 与 Tv的示意图

人类全基因组的ti/tv ratio 约为 2.0 ~2.2 左右,如果是全外显子组,那么由于在CpG岛中大量的甲基化胞嘧啶,ti/tv ratio 会偏高,达到3左右。

如果 transition 与 transversion 是随机发生的(没有其他生物因素干扰),那么理论上ti/tv应为0.5左右,这单纯是因为总共有tv的种类是ti的两倍(见图1)。然而在实际环境中,甲基化的胞嘧啶( methylated cytosine )发生脱氨基( deamination )反应变成胸腺嘧啶的几率高于其他变异 (C->T属于ti),所以ti/tv的比值会升高到2左右。 全外显子组中,由于在CpG岛中大量的甲基化胞嘧啶的存在 ti/tv 会更高。如果你的 ti/tv 值偏离太多,那可能意味着variant call过程中有较大的偏差(bias)。

参考:

https://biodatamining.biomedcentral.com/articles/10.1186/s13040-018-0186-4

https://www.cureffi.org/2012/10/17/descriptive-statistics-and-quality-control-on-variants/

https://www.nature.com/articles/ng.806

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4308666/

https://gatk.broadinstitute.org/hc/en-us/articles/360035531572-Evaluating-the-quality-of-a-germline-short-variant-callset

连锁不平衡 linkage disequilibrium LD

连锁不平衡(linkage disequilibrium)是进化生物学与人类遗传学中一个十分重要的概念,因为遗传过程中很多因素能够影响它,而它又会作用于很多因素,包括选择,重组频率,突变率,遗传漂变,交配模式,群体结构等等。反过来看,连锁不平衡就是反应群体遗传过程的一个强有力的信号。

连锁不平衡 是指 不同基因座(loci)等位基因(allele)之间非随机(nonrandom)的关联

首先考虑简单的两基因座情况,设有A, B两个基因座,每个基因做各有两个等位基因,分别用1,2表示。假设每个单倍体型的频率如下所示:

HaplotypeFrequency
A_{1}B_{1}x_{11}
A_{1}B_{2}x_{12}
A_{2}B_{1}x_{21}
A_{2}B_{2}x_{22}

由上 单倍体型的频率 ,我们也可以简单计算得到各个等位基因的频率:

AlleleFrequency
A_1p1 = x_{11} + x_{12}
A_2p2 = x_{21} + x_{22}
B_1q1 = x_{11} + x_{21}
B_2q2 = x_{12} + x_{22}

如果这两个基因座互相独立不相关(也就是连锁平衡 linkage equilibrium 的状态),那么各个单倍型的频率就可以直接算出,为p1q1 ,p1,q2 , p2q1, p2q2

而实际情况中单倍型的频率对于不相关情况下的理论值会产生偏离(deviation),这个偏离原因即为连锁不平衡( linkage disequilibrium ),偏离的程度通常记为 D (连锁不平衡系数,coefficient of linkage disequilibrium

D = x_{11} - p_1q_1

下图表示了各单倍型频率,各等位基因频率与D之间的关系。

A_1A_2Total
B_1x_{11} = p_1q_1+Dx_{21} = p_1q_1-Dq_1
B_2x_{12} = p_1q_2-Dx_{22} = p_2q_2+Dq_2
Totalp_1p_21

但要注意的是,D值并不是一个用来衡量LD的很好的指标,因为D值会受等位基因频率影响,这使得我们无法比较不同频率的等位基因对之间连锁不平衡的大小。

Lewontin提出通过标准化D值来解决该问题,即用D值除以理论上D可能的最大绝对值:

D' = {{D}\over{D_{max}}}

其中D的理论最大绝对值为:

D_{max} = \begin{cases}    max\{-p_1p_2, -(1-p_1)(1-p_2)\}, \text{when } D < 0 ,\\   min\{p_1(1-p_2), (1-p_1)(p_2)\}, \text{when } D > 0. \end{cases}

但更多的时候我们使用相关系数(correlation coefficient)r2来衡量LD:

r^2 = {{D^2}\over{p_1(1-p_1)p_2(1-p_2)}}

Locuszoom等绘制regional plot的软件会用到r2。

一些Fine-mapping分析软件中则会使用到r,其主要区别是 r 会分单倍体型。

参考:

https://en.wikipedia.org/wiki/Linkage_disequilibrium

Montgomery Slatkin. Linkage disequilibrium — understanding the evolutionary past and mapping the medical future.

勘误:

2024/02/19 修改了Dmax式子中D>0 与 D<0写反的错误。感谢 @Rain 的指正。

哈迪温伯格平衡 Hardy– Weinberg equilibrium

哈迪温伯格平衡是群体遗传学中一个十分重要的概念,它描述了在一个群体中某基因型的概率与分布。

具体来讲,哈迪温伯格平衡是指等位基因与基因型的频率,在无其他进化干扰因素存在的情况下,在代与代之间将会保持恒定。

换一句话说,如果某个群体里对于某个基因来说处于 哈迪温伯格平衡 ,那么就可以说这个基因没有在进化,该基因的等位基因频率在代与代之间也会保持恒定。

但 哈迪温伯格平衡 需要满足以下假设:

  • 没有自然选择 no natural selection
  • 没有遗传漂变 no genetic drift
  • 一个封闭的群体,没有大规模迁入迁出 no significant migration in or out of the population
  • 没有变异 no mutations
  • 没有选型交配 no assortative mating
  • 没有近亲交配 no inbreeding

在某一满足 哈迪温伯格平衡 假设的群体中,设 p为等位基因A的频率,q为等位基因a的频率;那么p2, 2pq, q2就表示个基因型的概率;

哈迪温伯格平衡 可以用如下的公式表示:

如果p=0.3 , q=0.7, 那么AA的频率就为9%,Aa为42%,aa为49%。

参考资料:

An Introduction to Statistical Genetic Data Analysis

SNP数据库 – dbSNP

链接: https://www.ncbi.nlm.nih.gov/snp/

1.dbSNP简介

dbsnp是NCBI于1998年建立的主要存储单核苷酸多态性(SNP)的免费公共数据库。该数据库包含多种模式生物。虽然其名称为dbSNP,但该数据库实际上包括多种分子变异:

  • 单核苷酸多态性 SNP
  • 短缺失和插入多态性 short deletion and insertion polymorphisms (indels/DIPs)
  • 微卫星标记或短串联重复  microsatellite markers or short tandem repeats (STRs)
  • 多核苷酸多态性 multinucleotide polymorphisms (MNPs)
  • 杂合序列 heterozygous sequences
  • 命名变体 named variants
图1:dbSNP主页

2. 网页版dbsnp中的SNP信息 (本文使用新本界面,也可以切换回旧版):

首先是snp的基础信息,包括物种,位置,等位基因,变异类型,频率等等,

此处以rs671为例:

通过切换不同tab可以看到与该snp相关的其他详细信息

最后还可以在基因组浏览器的序列坐标中直观的看到该snp与相邻的其他snp等。


3. 通过FTP下载完整数据:

如果需要下载最新版本的dbsnp数据库则,进入latest_release中,下载bgzip压缩过的VCF文件以及相应的tabix索引

如果需要某个历史版本,则进入archive中,下载对应版本的数据。

参考文献:

GWAS Catalog 数据库

url : https://www.ebi.ac.uk/gwas/

GWAS catalog数据库于2008年由National Human Genome Research Institute (NHGRI)建立,旨在应对快速增长的全基因组关联分析(GWAS)数据。该数据库为我们检索已发表GWAS与显著相关提供了方便。

该数据库中主要包含了已发表GWAS的Summary statistics (人工审核录入,有一定延迟,大约发表后一到两个月内录入数据库)。截止2021年3月25日,GWAS catalog已经收录了4,961篇文献,包括251,401个相关。目前该数据库采用的参考基因组与SNP数据库为Genome Assembly GRCh38.p13 与 dbSNP Build 153。

图1:当前GWAS Catalog收录的所有相关SNP

已发表或未发表的GWAS Summary statistics都可通过GWAS catalog的FTP进行下载。

图2:已发表并有summary statistics的GWAS列表 (部分)

溯祖模型模拟 Coalescent model COSI2

一,简介

COSI2是一款基于溯祖理论(Coalescent theory)的模拟软件, 可以用来模拟群体的单倍型。

url:https://github.com/broadinstitute/cosi2

从github上clone到本地后,解压并编译

tar xvfz cosi-2.0.tar.gz
cd cosi-2.0
./configure
make

二,使用方法

基本语法

coalescent -p paramfile -m

-p 是指定参数文件;-m 是指定输出文件格式为Richard Hudson’s ms simulator的输出格式, 可以参考http://home.uchicago.edu/rhudson1/source/mksamples.html

参数文件中可以通过关键字来定义群体结构等各类模拟参数。

1.1. 指定模拟的范围长度,单位是 basepairs

length <length in bp>

1.2. 突变率

mutation_rate <mutation rate per bp per generatio>

1.3.重组率

recomb_file <file-name>

需要指定额外的 genetic map 文件,这个文件包含两列,有空格分隔。第一列给出基于碱基对的位置,第二列给出到下一位点的交叉重组率(每代)。第一列需要为严格的升序。 只有一行的文件则代表恒定的重组率。

例如:

1	9.92772e-09
156	1.00420e-08
373	1.01177e-08
923	9.77556e-09
1666	9.29830e-09
2704	9.19754e-09

附带的 recosim (在文末介绍) 程序也可以基于给定的重组热点的分布来随机生成一个genetic map。

2 群体

任何出现在模拟中的群体都需要被明确指定

pop_define <pop id> <label>
pop_size <pop id> <size>
sample_size <pop id> <n samples>

pop id 为整数值,在之后描述demographic events时会用到。 label 则是方便我们阅读用的标签。pop_size 是指群体中二倍体的数量。sample则指单倍体样本的数量。

例如

pop_define 1 European
pop_size 1 10000
sample_size 1 50

指定了ID为1的 ‘‘European’’群体,大小为10000,抽取的单倍体样本为50

3. demographic history 群体变迁史

#population size
pop_event change_size <label> <pop id> <T> <size for time > T>
#exponential expansion 
pop_event exp_change_size <label> <pop id> <Tend> <Tstart> <final size> <start size>
pop_event exp_change_size "expansion" 1 50 500 10000 1000
# bottleneck event
pop_event bottleneck <label> <pop id> <T> <inbreeding coefficient>
#migration rate
pop_event migration_rate <label> <source pop id> <target pop id> <T> <probability of migration/chrom/gen>
#population split
pop_event split <label> <source pop id> <new pop id> <T>
#admixture
pop_event admix <label> <admixed pop id> <source pop id> <T> <fraction of admixed chroms from source>
#sweep
pop_event sweep <pop> <Tend> <selection coefficient> <position of causal allele (0.0-1.0)> <freq at Tend>

输出格式:

-m 结果格式为  Richard Hudson’s ms simulator 的格式,直接打印在标准输出里。

-o basename 生成cosi的格式,对于每个群体,分别生成basename.pos-<pop id> 与 basename.hap-<pop id> 文件。basename.hap-<pop id>包含了单倍体型, basename.pos-<pop id> 则是变异的位置。在 basename.hap-<pop id> 中,2指代祖先的allele,1则是衍生的allele。

例:

# basename.hap-<pop id>
0	1	2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 ...

# basename.pos-<pop id> 
SNP CHROM CHROM_POS ALLELE1 FREQ1 ALLELE2 FREQ2
1 1 85.409249 1 0.000000 2 1.00000
...

三,使用 recosim 生成recombination maps

用法: recosimulate <parameter file name> <region size (bp)>

用于生成 recombination maps 的参数文件如下:(所有参数都是可选的)

outfile <output file name>    [default="model.out"]
model <0,1>    [default=0]
 model 0: uniform recombination, constant or drawn from distribution.
 model 1: model 0 + gamma-distributed hotspots.
baserate <mean recomb (cM/Mb)>    [default=1.0]
distribution <recomb distr. file name>    [default=none (const value)]
space <mean hotspot spacing (bp)>    [default=9000]
distance_shape <gamma function shape param>    [default=1.0]
intensity_shape <gamma function shape param>    [default=0.3]
local_shape <gamma function shape param, local variation>    [default=0.3]
local_size <size of region of local variation (bp) (e.g. 100000)>    [default=50000000]
bkgd <fraction in flat bkgd>    [default=0.1]
random_seed <integer seed> (0=>picked by program based on time and PID) [default=0]

如果使用 model 0 ,那么重组率对于模拟的区域来说是恒定的,可以通过 baserate 来直接指定,也可以通过 distribution 来从指定分布文件中随机生成。

分布文件格式如下:

bin_start bin_end cumulative_fraction

 Where bin_start and bin_end specify a range of recombination rates (in cM/Mb) and the cumulative fraction is the probability that the recombination rate lies within this or earlier bins. Entries should be in order of increasing rate;

例:examples/bestfit/autosomes_deCODE.distr

0.0 0.2 0.05052
0.2 0.4 0.14890
0.4 0.6 0.27919
0.6 0.8 0.40295
0.8 1.0 0.50370
1.0 1.2 0.59713
1.2 1.4 0.66145
1.4 1.6 0.71358
1.6 1.8 0.77198
1.8 2.0 0.80874
2.0 2.2 0.84086
2.2 2.4 0.86372
2.4 2.6 0.88945
2.6 2.8 0.91396
...

如果使用 model 1 ,重组率则是变化的。

 the recombination rate varies across the region; the variation can be on both local and fine scales. With this model, the baserate or distribution parameters are still valid, but they now set the expected value of the recombination rate in the entire region, the value around which local rates vary. A fraction of the mean rate can be kept constant across the region, using the bkgd parameter. The remainder of the recombination rate varies locally in windows across the region, with the size of the window controlled by the parameter local_size; that is, if local_size is set to 100 kb, a new value is chosen every 100 kb. The value is chosen from a gamma distribution (with shape parameter set by local_shape), with a mean value determined by the regional rate (and the background fraction). Within each window, recombination is clustered into point-like hotspots of recombination. These have a gamma-distributed intensity with shape parameter intensity_shape (and mean determined by the local rate), and a gamma-distributed spacing with shape parameter distance_shape and mean set by parameter space.

With model=1 and a small value for intensity_shape, there is a small but extended tail at very high recombination rates; when simulating long sequences, this can make the coalescent simulator take orders of magnitude longer on a small fraction of runs. I have therefore found it useful to truncate the tail within recosim. (There is a commented-out line for doing so in the code.)

A final option is random_seed, which permits the user to specify a seed for the random number generator; this is useful for debugging or recreating a previous run. If a seed of zero is supplied, or the keyword is not found, a random seed will be generated from the time and process id of the job. In any case, the random seed used is always output to stdout during execution.

附录:

cosi2命令行选项

	Specifying the model:
		-p [ --paramfile ] arg          parameter file
		-R [ --recombfile ] arg         genetic map file (if specified, overrides the
																		one in paramfile)
		-n [ --nsims ] arg (=1)         number of simulations to output
		-r [ --seed ] arg (=0)          random seed (0 to use current time)

		-J [ --trajfile ] arg           file from which to read sweep trajectory.  It has two columns: first column gives the generation, second gives the fraction of chromosomes in the sweep population carrying the derived (advantageous) allele.

		-u [ --max-coal-dist ] arg (=1) for Markovian approximation mode, the level 
																		of approximation: the maximum distance 
																		between node hulls for coalescence to be 
																		allowed.  Distance is specified as a fraction
																		of the total length of the simulated region, 
																		in the range [0.0-1.0]; 1.0 (default) means 
																		no approximation.

	Specifying the output format:
		-o [ --outfilebase ] arg base name for output files in cosi format
		-m [ --outms ]           write output to stdout in ms format

	Specifying output details:
		-P [ --output-precision ] arg number of decimal places used for floats in the outputs
		-M [ --write-mut-ages ]       output mutation ages
		-L [ --write-recomb-locs ]    output recombination locations

	Misc options:
		-h [ --help ]                      produce help message
		-V [ --version ]                   print version info and compile-time options
		-v [ --verbose ]                   verbose output
		-g [ --show-progress ] [=arg(=10)] print a progress message every N 

参考:

http://home.uchicago.edu/rhudson1/source/mksamples.html

https://github.com/broadinstitute/cosi2

人类参考基因组 Human reference genome CHM13/hg19/hg38/GRCh37/GRCh38/b37/hs375d

本文基于 https://github.com/Cloufield/CTGCatalog/tree/main/Reference_data/Genome

目前使用较为广泛的人类参考基因组的版本有(20221011更新):

  • CHM13
  • GRCh38 / h38
  • GRCh37 / hg19
  • hs375d
  • b37
  • humanG1Kv37

CHM13

目前最新的参考基因组版本,利用long-read seq技术与名为CHM13 的纯合的完全性葡萄胎(complete hydatidiform mole)的细胞系,T2T项目完成了人类第一个完整的参考基因组CHM13,该成果与其相关研究于2022年发表于Science上。

  • 链接: https://github.com/marbl/CHM13
  • 内容: chr1-22(CHM13),chrX(CHM13),chrY(NA24385),chrM(CHM13)
  • 参考: Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., … & Phillippy, A. M. (2022). The complete sequence of a human genome. Science, 376(6588), 44-53.

GRCh38 / hg38

由基因组参考联合会 (Genome Reference Consortium)发布,正式名称为GRCh38(Genome Research Consortium human build 38),也被称为hg38(Human genome build 38, UCSC发布的版本),初版发布于2013年12月,特点是使用ALT contigs来代表常见的复杂变异,例如HLA loci.

GRCh38 (GRCh38.p14) 链接: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.40

UCSChg38 链接: https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

该版本的组装主要包含:

  • 组装的染色体:1-22号染色体(chr1-22),X(chrX),Y染色体(chrY),以及线粒体DNA(chrM)
  • Unlocalized sequences :已知位于某一染色体上,但方向和位置未知, 该类序列有_random后缀标注
  • Unplaced sequences:未知染色体来源的序列,有chrU_ 前缀标注
  • Aalternate loci/ALT contigs :有 _alt 后缀标注,为某一区域可能的其他序列,表示这一区域的基因多样性

此外还包括:

  • Pseudo-autosomal regions (PAR): XY染色体上的同源序列
  • Homologous centromeric and genomic repeat arrays: 着丝粒 与 基因组重复序列(卫星DNA)
  • EBV & decoys:EB病毒 与 诱饵序列等不能map到人类基因组的序列
GRCh38.p7的染色体图。放大的区域表示蓝色区域有大量的N。

GRCh37/ hg19

基因组参考联合会 (Genome Reference Consortium)于2009年2月发布的历史版本,近年发表文献多使用这一版本,但逐渐再向 GRCh38 过渡。

GRCh38 相比 GRCh37,修改了8000多错误的单核苷酸,纠正了若干错误组装的区域,填充了部分gap,新增了着丝粒(centromeres)的序列,并且大幅增加了alternate loci的数量。

University of California at Santa Cruz (UCSC) 于 2009 年 2 月发布的人类基因组组装hg19,与GRCh37序列基本相同,但具有不同的线粒体序列和其他替代的单倍型组装。对染色体的命名不同,为“1”,“2”。

GRCh37.p13 : https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.25

UCSC hg19: http://hgdownload.cse.ucsc.edu/goldenpath/hg19/bigZips/


hs37d5

在 千人基因组项目第二阶段 (1000 genome phase II) 中组装的参考基因组,来自Broad Institute,主要包括以下序列:

  • GRCh37:Integrated reference sequence from the GRCh37 primary assembly (chromosomal plus unlocalized and unplaced contigs)
  • rCRS 线粒体序列:The rCRS mitochondrial sequence (AC:NC_012920)
  • 人疱疹病毒 4 型 1 类:Human herpesvirus 4 type 1 (AC:NC_007605)
  • 级联诱饵序列的数据(名称的由来):Concatenated decoy sequences (hs37d5cs.fa.gz)

b37

在 千人基因组项目第一阶段 (1000 Genomes Project Phase I ) 中组装的参考基因组,由Broad Institute发布,该组装主要基于GRCh37,包括来自 GRCh37、rCRS 线粒体序列和人疱疹病毒 4 型 1 类的数据。

  • 文件名: Homo_sapiens_assembly19.fasta
  • 来源: the 1000 Genomes Project Phase I and III, Broad Institute
  • URL : https://data.broadinstitute.org/snowman/hg19/
  • 内容: 1…22,X,Y,MT, unlocalized sequences (GL000191.1 …), unplaced sequences(GL000211.1 …) , NC_007605

humanG1Kv37

参考资料:

https://gatk.broadinstitute.org/hc/en-us/articles/360035890711?id=23390

https://cloud.google.com/life-sciences/docs/resources/public-datasets/reference-genomes

https://www.sciencedirect.com/science/article/pii/S0888754317300058

分位数-分位数图 QQ plot

QQ plot 是 GWAS结果可视化的非常有力的工具之一。 通过QQplot 我们可以直观地判断GWAS结果统计量是否存在inflation,是否存在过多的假阳性等,从而了解我们的分析是否存在群体分层等系统性的问题。

QQ plot 全称是 quantile-quantile plot (分位数-分位数图),是在统计学中,通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。分位数是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。

GWAS的QQplot中,作图的对象为关联分析时得到的p值,与曼哈顿图一样,通常我们将p之转化为-log10(p)。qqplot的x轴为期望分布(expected distribution),在这里实际为(0,1)的均匀分布的分位数,y轴则是观察分布(observed distribution),也就是我们实际得到的p值的分位数。

作图的目的我们可以简单理解为,实际得到的p值是否是服从均匀分布。因为如果检验的所有snp都与表型不相关,那么p值就会成(0,1)的随机分布。

下面用python现实如何作图:

GWAS入门文章与书籍推荐

对于统计遗传学(全基因组关联分析)的初学者来说,最难得莫过于入门,

好在GWAS问世以来已经过了十多年,该研究领域也形成了一定规模,基础内容逐渐充实,2020年出版的 An Introduction to Statistical Genetic Data Analysis 网罗该领域内研究背景,基础知识,常用工具介绍,代码实操等。

本书第一部分主要介绍相关基础内容,涵盖群体遗传学的基本概念,统计学基础,人类进化(Human evolution),GWAS,风险评分(PRS)等等基础内容。

第二部分介绍遗传数据的处理与使用,质控(QC),人群分层,PCA,等等GWAS的操作步骤。

第三部分则是介绍GWAS下游的分析方法,包括基因环境相互作用,PRS,数据可视化,MTAG,孟德尔随机化等。

图1: An Introduction to Statistical Genetic Data Analysis 封面

原书链接: https://mitpress.mit.edu/books/introduction-statistical-genetic-data-analysis

这本书难度适中,适合初学者入门,对于理解基础概念会有很大帮助,但深度不够,个人建议可以快速阅读这本书,掌握群体遗传学研究的大致框架后,针对感兴趣的领域查找文献原文来了解细节。也可以阅读Nature Reviews Genetics上关于GWAS的综述文章,对本领域入门很有帮助。


对于希望尝试更硬核内容的同学们,我还强烈推荐这本书,Handbook of statistical genomics,本书更偏向数理原理,有大量的公式推导等,非常刺激,对于无数理基础的初学者则不太推荐此书。

图2: Handbook of statistical genomics 封面

除了书籍以外,其他适合入门的资料还包括:

密西根大学的开设的biostats 666这门课的slides(听着这课的名字是不是就很6)(请记住这个这位大佬的网站Genome Analysis Wiki 以后你会用到无数次的),

Biostatistics 666: Main Page

该课程也涵盖了统计遗传学中重要的概念知识点,包括了基础概念以及部分统计原理,适合快速浏览:

图3 :Biostatistics 666: slides 截图

华盛顿大学遗传统计学夏季学校 SISG 讲义:

除了理论基础,还有代码实操等。可以跟着代码一起练习,非常适合初学者。

GWAS and Sequencing Data

图4 : SISG slides 截图

另外就是大阪大学遗传统计学夏季学校的讲义分享, 我最喜欢的零基础入门其实是这个,图文并茂, 概念细节比较到位(但是是日语的,有机会了给大家翻译):

https://www.slideshare.net/YukinoriOkada/presentations

最后,当然,还有GWASLab的主页:GWASLab

博客连接:GWAS文章索引 – Article index

以及GWAS相关文章汇总:GWASLab:全基因组关联分析GWAS文章汇总(持续更新)

我会持续更新统计遗传学,生物信息学等相关中文内容,感谢大家的关注!