本文内容
1.背景介绍
2.为什么在PCA等时要去除LongLD区域?
3.长LD区域起始位置的列表
4.使用PLINK去除长LD区域里的SNP:
1.背景介绍:
LD :连锁不平衡 linkage disequilibrium LD
PCA :群体分层与主成分分析 Population structure & PCA
2.为什么在QC时要去除LongLD区域?
人类基因组中存在若干长LD的区域,这些区域多位于染色体的着丝粒附近,还有一些位于HLA等区域。如下图所示:

这些区域跨度很长(长度超过2Mb),单次LD-pruning无法完全去除互相成LD的SNP,在进行诸如PCA,或是计算GRM,进行基于LMM模型的GWAS分析时,我们应当去除掉这些区域。
长LD区域的形成并不一定是因为选择,其他原因诸如倒位多态性(inversion polymorphism)也可能造成长LD区域的存在。在进行研究时,应当谨慎区分这些区域形成的原因。如果在计算模型中没有对这些长LD区域进行处理,就可能影响群体遗传结构中对于本地群体的估计,造成系统性的偏倚。
3.长LD区域起始位置的列表(hg38,hg19与hg18参考基因组版本)
hg38版本
Chr Start Stop
chr1 47761740 51761740
chr1 125169943 125170022
chr1 144106678 144106709
chr1 181955019 181955047
chr2 85919365 100517106
chr2 87416141 87416186
chr2 87417804 87417863
chr2 87418924 87418981
chr2 89917298 89917322
chr2 135275091 135275210
chr2 182427027 189427029
chr2 207609786 207609808
chr3 47483505 49987563
chr3 83368158 86868160
chr5 44464140 51168409
chr5 129636407 132636409
chr6 25391792 33424245
chr6 26726947 26726981
chr6 57788603 58453888
chr6 61109122 61357029
chr6 61424410 61424451
chr6 139637169 142137170
chr7 54964812 66897578
chr7 62182500 62277073
chr8 8105067 12105082
chr8 43025699 48924888
chr8 47303500 47317337
chr8 110918594 113918595
chr9 40365644 40365693
chr9 64198500 64200392
chr9 88958735 88959017
chr10 36671065 43184546
chr10 41693521 41885273
chr11 88127183 91127184
chr12 32955798 41319931
chr12 34639034 34639084
chr14 87391719 87391996
chr14 94658026 94658080
chr17 43159541 43159574
chr20 4031884 4032441
chr20 33948532 36438183
chr22 30060084 30060162
chr22 42980497 42980522
hg19版本
Chr Start Stop ID
1 48000000 52000000 1
2 86000000 100500000 2
2 134500000 138000000 3
2 183000000 190000000 4
3 47500000 50000000 5
3 83500000 87000000 6
3 89000000 97500000 7
5 44500000 50500000 8
5 98000000 100500000 9
5 129000000 132000000 10
5 135500000 138500000 11
6 25000000 35000000 12
6 57000000 64000000 13
6 140000000 142500000 14
7 55000000 66000000 15
8 7000000 13000000 16
8 43000000 50000000 17
8 112000000 115000000 18
10 37000000 43000000 19
11 46000000 57000000 20
11 87500000 90500000 21
12 33000000 40000000 22
12 109500000 112000000 23
20 32000000 34500000 24
hg18版本
Chr Start Stop ID
1 48060567 52060567 hild1
2 85941853 100407914 hild
2 134382738 137882738 hild3
2 182882739 189882739 hild4
3 47500000 50000000 hild5
3 83500000 87000000 hild6
3 89000000 97500000 hild7
5 44500000 50500000 hild8
5 98000000 100500000 hild9
5 129000000 132000000 hild10
5 135500000 138500000 hild11
6 25500000 33500000 hild12
6 57000000 64000000 hild13
6 140000000 142500000 hild14
7 55193285 66193285 hild15
8 8000000 12000000 hild16
8 43000000 50000000 hild17
8 112000000 115000000 hild18
10 37000000 43000000 hild19
11 46000000 57000000 hild20
11 87500000 90500000 hild21
12 33000000 40000000 hild22
12 109521663 112021663 hild23
20 32000000 34500000 hild24
X 14150264 16650264 hild25
X 25650264 28650264 hild26
X 33150264 35650264 hild27
X 55133704 60500000 hild28
X 65133704 67633704 hild29
X 71633704 77580511 hild30
X 80080511 86080511 hild31
X 100580511 103080511 hild32
X 125602146 128102146 hild33
X 129102146 131602146 hild34
4.使用PLINK去除长LD区域里的SNP:
我们可以使用PLINK来去除长LD区域里的SNP,主要分为两步:
1.将上一节中的列表拷贝进high-ld.txt文件中(使用时记得去掉header),使用--make-set
选项提取区域中的SNP
2.在分析时利用--exclude
去除掉上一步所生成列表中的SNP
plink --file mydata --make-set high-ld.txt --write-set --out hild
plink --file mydata --exclude hild.set --recode --out mydatatrimmed
参考:
https://genome.sph.umich.edu/wiki/Regions_of_high_linkage_disequilibrium_(LD)
Price et al. (2008) Long-Range LD Can Confound Genome Scans in Admixed Populations. Am. J. Hum. Genet. 86, 127-147
更新:
20220905 修改表述错误,更新PCA链接,并增加hg38版本