GWAS | 全基因组关联分析 | PLINK | 实战

参考:PLINK

vcftools

首先必须了解plink的三种格式:bed、fam和bim。(注意:这里的bed和我们genome里的区域文件bed完全不同)

plink需要的格式一般可以从vcf文件转化而来 (顺便了解一下ped和map两种格式):

# PED
     1 1 0 0 1  0    G G    2 2    C C
     1 2 0 0 1  0    A A    0 0    A C
     1 3 1 2 1  2    0 0    1 2    A C
     2 1 0 0 1  0    A A    2 2    0 0
     2 2 0 0 1  2    A A    2 2    0 0
     2 3 1 2 1  2    A A    2 2    A A
# MAP 
     1 snp1 0 1
     1 snp2 0 2
     1 snp3 0 3
# vcf转ped和map
plink --vcf file.vcf --recode --out file
# ped和map转bed、bim和fam
plink --file test --make-bed --out test

三种格式的官方介绍

bed文件(真实的bed文件是二进制的,比较难读)

             rs4970383 rs3748592 rs9442373 rs1571150 rs6687029
2431:NA19916         2         0         0         0         1
2424:NA19835         1         0         1         2         0
2469:NA20282         1         0         1         0         1
2368:NA19703         0         0         0         2         0
2425:NA19901         1         0         1         2         2
OR
# xxd -b test.bed

00000000: 01101100 00011011 00000001 11011100 00001111 11100111 l.....
00000006: 00001111 01101011 00000001 .k.

fam文件

1 2431 NA19916  0  0  1
2 2424 NA19835  0  0  2
3 2469 NA20282  0  0  2
4 2368 NA19703  0  0  1
5 2425 NA19901  0  0  2
OR
1 1 0 0 1 0
1 2 0 0 1 0
1 3 1 2 1 2
2 1 0 0 1 0
2 2 0 0 1 2
2 3 1 2 1 2

bim文件

1  1 rs4970383  0  828418  A
2  1 rs3748592  0  870101  A
3  1 rs9442373  0 1052501  C
4  1 rs1571150  0 1464167  A
5  1 rs6687029  0 1508931  C
OR
1       snp1    0       1       G       A
1       snp2    0       2       1       2
1       snp3    0       3       A       C

基本概念

关联分析:就是AS的中文,全称是GWAS。

曼哈顿图:

CMplot:一个R包,画曼哈顿图的。

GCAT(Genome-wide Complex Trait Analysis):在分析的时候计算LD,PCA以及关联分析。

BLUP:即最佳线性无偏预测(Best Linear Unbiased Prediction),该方法广泛用于GWAS中对多年多点表型数据分析当中,R语言中的lme4包可以对此进行分析

跑跑PLINK工具

plink --bfile  --pheno  --pheno-name t16 --linear hide-covar --covar  --covar-name
 AGE,SEX,PC1,PC2,PC3,PC4 --ci 0.95 --out
--bfile  将snp文件变成二进制格式
--pheno 这里导入我们刚刚处理的性状文件 
--pheno-name t16 要处理的性状名字是t16
--linear hide-covar 使用线性模型,hide-covar指的是不要对我没加入的协变量进行分析
--covar  --covar-name AGE,SEX,PC1,PC2,PC3,PC4 把我们选取的协变量加入线性回归模型中,我们选的协变量有:AGE,SEX,PC1,PC2,PC3,PC4
--ci 0.95 设置置信区间

 

SNP过滤问题

使用vcftools过滤:
1. MAF<0.05
vcftools --vcf test.vcf --maf 0.05 --out XX
2.完整度大于90%
vcftools --vcf test.vcf  --max-missing 0.9 --OUT XX
3.平均深度大于5
vcftools --vcf test.vc --min-meanDP 5 --out xx

注:
使用--gvcf更为快捷
使用plink过滤
1.vcf转化plink格式
vcftools --vcf test.vcf --plink --out  xxx
2.plink --noweb --file plink --geno 0.05 --maf 0.05 --hwe 0.0001 --make-bed

  

  

  

  

  

猜你喜欢

转载自www.cnblogs.com/leezx/p/9013615.html