GenBank数据格式
以酿酒酵母TCP1β基因,部分编码区为例:
关键字表
关键字 | 说明 |
---|---|
LOCUS | 【标记(简单描述)】:名称,长度,分子类型,数据分类(见下文),最后一次修订时间 |
DEFINITION | 【定义】:物种/基因/蛋白质名称,编码区or非编码区,全序列or部分序列 |
ACCESSION | 【检索号】 |
VERSION | 【版本号】 |
DBLINK | 【相关资源链接】 |
KEYWORDS | 【关键词】:新的记录基本为”.“ |
SOURCE | 【物种来源】 |
—ORGANISM | 【物种分类】 |
REFERENCE | 【参考文献】 |
—AUTHORS | 【作者】 |
—TITLE | 【题目: Direct Submission(直接提交,未经发表) |
—JOURNAL | 【期刊】 |
—PUBMED | 【PubMed编号】 |
—REMARK | 【评论】 |
COMMENT | 【注释】 |
FEATURES | 【序列特征表】:特性关键字(见下午),特性位置(起始…终止),限定词(/限定词=限定值) |
ORIGIN | 【注释】 |
每个关键子体现一个字段,其中“—“开头的关键字表示二级关键字(子字段),在实例中表现为缩进。
LOCUS 中数据分类:
PRI →灵长类
ROD → 啮齿类
LNV → 无脊椎动物
PLN → 植物
BCT → 细菌
VRT → 病毒
PHG →抗菌素
SYN → 合成产物
EST → 表达序列标签
PAT → 专利序号
STS → 序列标记位点
GSS → 基因组勘测序列
HTG → 高通量基因组
HTC → 高通量cDNA
ENV → 环境样品
MAN → 其他哺乳动物
VRT → 其他脊椎动物
UNA → 未注释
FEATURES主要关键字:
attenuator → 与转录终止相关的序列
C_region → C-免疫特征区
CAAT_signal→ 真核心启动子上游的CAAT盒
CDS → 蛋白字编码序列
confict → 同一序列在不同研究中的差异
D_loop → 线粒体中DNA中的取代环
D_segment→D-免疫区
enhancer → 增强子
exon → 外显子
gene → 基因区域
GC_signal → 真核启动子的GC盒
iDNA → 通过重组消除的DNA
intron → 内含子
J_segment→ J-免疫特征区
N_region → N-免疫区特征区
V_region → V-免疫特征区
S_region → 免疫球蛋白重链开关区
LTR → 长末端重复序列
mat_peptide → 编码成熟肽序列
misc_binding → 无法描述的核酸序列结合位点
misc_difference → 序列特性无法用特性表关键字描述的序列
misc_feature → 生物学特性无法用特性表关键字描述的序列
misc_recomb → 无法用重组特性关键字描述的序列
misc_RNA → 无法用RNA特性关键字描述的转录物或RNA产物
misc_signal → 无法用信号关键字描述的信号序列
misc_structure → 无法用结构关键字描述的高级结构或构型
modified_base → 修饰过的核苷酸
mRNA → 信使RNA
rRNA → 核糖体RNA
scRNA → 小细胞质RNA
snRNA → 小核RNA
tRNA → 转运RNA
old_sequence → 该序列对以前的版本进行修订
ployA_signal → RNA转录本的剪切位点
ployA_site → RNA转录本的多聚腺苷酸化位点
precursor_RNA → 前体RNA
prim—transcript → 初始转录本
primer → PCR引物
primer_bind → 引物结合位点
promoter → 转录起始区
protein_bind → 蛋白质结合区
RBS → 核糖体结合位点
rep_origin → 双链DNA复制起始区
repeat_region → 重复序列
repeat_unit → 单个的重复原件
Satellite → 卫星重复序列
sig_peptide → 编码信号肽序列
source → 物种来源
stem_loop → 发夹结构
STS → 测序标签位点
TATA_signal → 真核启动子的TATA盒
terminator → 转录终止序列
transit_peptide → 转运蛋白质编码序列
transposon → 转座子
unsure → 序列不能确定区
variation → 包含稳定突变的序列
-10_signal → 原核启动子的Pribow盒
-35_signal → 原核启动子的-35框
3’ clip → 前提转录本被剪切掉的3’端序列
3’ UTP → 3’非翻译区
5’ clip → 前体转录本被剪切掉的5’端序列
5’ UTP → 5’非翻译区