gffread处理工具

GFF/GTF格式

01 格式

1.GFF(general feature format ): 通用特征格式,格式由每个特征一行组成,每行包含9 列数据,以及可选的轨道定义行;
2.GTF(gene transfer format ): 通用传输格式,与GFF版本2相同。

02 功能

1.GFF用来注释基因组
2.GTF用来注释基因,比如基因在染色体上的位置(coordinate)及这段区间的其他信息
3. GTF文件和GFF文件都是由9列信息组成,并且这两种文件的前8列基本上是相同的,最后一列信息显示不一致。

GTF的第九列,通常为:
gene_id “At1g00001”; transcript_id “At1g00001.1”;

而GFF的第九列,通常还可以增加一些其他信息,通过分号分割
ID=mrna001;Name=abc
ID=exon1;Parent=mrna001
ID=exon2;Parent=mrna001

gffread

01 软件介绍

gffread可用于验证、过滤、转换和对 GFF 文件执行各种其他操作,gffread是Cufflinks里面的一个子工具(TopHat+Cufflinks来用于转录组的组装,但HISAT2+Stingtie搭配使用效果更好,所以这里不介绍Cufflinks软件)。

02 安装
conda install -c bioconda gffread

03 用法:

gffread <input_gff> [-g <genomic_seqs_fasta> | <dir>][-s <seq_info.fsize>] 
 [-o <outfile>] [-t <trackname>] [-r [[<strand>]<chr>:]<start>..<end> [-R]]
 [-CTVNJMKQAFPGUBHZWTOLE] [-w <exons.fa>] [-x <cds.fa>] [-y <tr_cds.fa>]
 [-i <maxintron>] [--bed] [--table <attrlist>] [--sort-by <refseq_list.txt>]

04 常用功能:

gff与gtf转化

#gff2gtf   gff转gtf
gffread genome.gff3 -T -o genome.gtf
#gtf2gff   gtf转gff
gffread genome.gtf -o- > genome.gff3

获取CDS序列

gffread genome.gff3 -g genome.fa -x cds.fa

获取蛋白序列

gffread genome.gff3 -g genome.fa -y protein.fa

获取转录本序列

gffread genome.gff3 -g genome.fa -w transcripts.fa

END

(关注“作图帮”公众号,获取更多精彩干货)

Guess you like

Origin blog.csdn.net/weifanbio/article/details/121119239