一、生物数据库

1.1 PubMed 文献数据库

PubMed 文献记录的内部结构
按作者名 AU 搜索：Down [AU]
按标题 TI 搜索：Down [TI]
按实验室地址 AD 搜索：Down [AD]
关于使用 PubMed 的几个小建议：
使用引号（“down syndrome” )
使用逻辑词 AND, OR, NOT（dUTPase [T] AND bacteria [T] NOT Smith [AU])
使用正确的名字缩写 (“Abergel C”)
使用每篇文献唯一的 PubMed ID（PMID: 24933525)

1.2 一级核酸数据库

1.2.1 INSDC = Genbank + ENA + DDBJ

NCBI GenBank
ENA 欧洲核苷酸序列数据集
DDBJ 日本 DNA 数据库

Genbank，ENA 与 DDBJ 共同构成国际核酸序列数据库合作联盟 (International Nucleotide Sequence Database Collaboration, INSDC)。通过 INSDC，三大核酸数据库的信息每日相互交换、更新汇总，这使得他们几乎在任何时候都享有相同的数据。
原核生物与真核生物基因的不同：

GenBank

（1）原核生物核酸序列： Nucleotide 中搜索 X01714

LOCUS：基因名
ACCESSION：基因编号，唯一不变
FEATURES：描述核酸序列中各个已确定的片段区域，包含很多子条目，比如来源 (source)，启动子 (promoter) 等。
- source：说明了核酸序列的来源，据此可以容易的分辨出该序列是来源于克隆载体还是基因组。当前序列（全长）来源于大肠杆菌的基因组 DNA。
- promoter：列出了启动子的位置。细菌有两个启动子区，一个 -35 区 (5’-TTGACA-3’) 位置在第 286 个碱基到第 291 个碱基，一个 -10 区 (5’-TATAAT-3’) 位置在第 310 个碱基到第 316 个碱基。
- misc_feature
- CDS (Coding Segment) : 记录了一个 ORF ( open reading frame)，从第 343 个碱基开始的 ATG（起始密码子）到第 798 个碱基结束的 TAA （结束密码子）。除了第一行的位置信息，还包括翻译产物（蛋白质）的诸多信息。
FASTA 格式：
第一行，大于号加名称或其它注释
第二行以后：序列，每行 60 个字母
Graphics：获得序列的图形概览
下载纯文本格式 (Flat File) 的数据库记录

（2）真核生物核酸序列 mRNA： Nucleotide 中搜索 dUTPase 的 成熟 mRNA 序列信息 U90223。

注意看清 CDS 的 note 部分，这里编码的是线粒体型的
CDS 和 mat_peptide 末尾差了 3 个碱基，因为 CDS 最后 3 个碱基是终止密码子，不翻译氨基酸。

（3）真核生物核酸序列 DNA： Nucleotide 中搜索 dUTPase 的 基因组 DNA 序列信息 AF018430。
source / map
gene / mRNA
剪切后形成的 mRNA 有 2 种：
上面的 mRNA 多一个外显子，将被翻译成定位线粒体的信号肽，从而翻译出 线粒体型（mitochondrial form） 蛋白质。
下面没有信号肽的 mRNA 将被翻译成 细胞核型（nuclear form） 蛋白质。
exon：当前这个序列所包含的外显子的位置及编号。

1.2.2 基因组数据库 Ensemble

Ensemble
详见视频：2.5-级核酸数据库：基因组数据库-01 P14

1.2.3 微生物宏基因组数据库

美国国立卫生研究所 (NIH) 建立了人类微生物组学计划 (Human Microbiome Project，HMP)。目前 HMP 主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。
Human Microbiome Project Data Portal

1.3 二级核酸数据库

RefSeq 数据库：参考序列数据库，是通过自动及人工精选出的非冗余数据库，包括基因组序列、转录序列和蛋白质序列。
dbEST 数据库：表达序列标签数据库，包含来源于不同物种的表达序列标签 (EST)。
Gene 数据库：为用户提供基因序列注释和检索服务，收录了来自 5300 多个物种的 430 万条基因记录。
非编码 RNA 数据库：ncRNA databases 汇总

1.4 一级蛋白质序列数据库 UniProt

UniProt = Swiss-Prot + TrEMBL + PIR
UniProt 三个层次数据库：
◆ UniParc: 收录所有 UniProt 数据库子库中的蛋白质序列，量大，粗糙。
◆ UniRef: 归纳 UniProt 几个主要数据库并将重复序列去除后的数据库。
◆ UniProtKB: 有详细注释 并与其他数据库有链接的数据库，分为 UniProtKB/Swiss-Prot（人工注释，reviewed）和 UniProtKB/TrEMBL（计算机自动注释，not reviewed）。
详见视频：一级蛋白质序列数据库：UniProtKB-02 P18

1.5 一级蛋白质结构数据库 PBD

● 蛋白质的结构可分为四级：

一级结构 Primary structure: 氨基酸序列
二级结构 Secondary structure：周期性的结构构象，α 螺旋，β折叠等
三级结构 Tertiary structure：整条多肽链的三维空间结构，3D 结构
四级结构 Quaternary structure：几个蛋白质分子（亚基）形成的复合体，如四聚体

● 蛋白质结构数据库 (Protein Data Bank, PDB) 是全世界唯一存储生物大分子 3D 结构的数据库。这些生物大分子除了蛋白质以外还包括核酸及两者的复合物。只有通过实验方法获得的 3D 结构才会被收入其中。目前 PDB 数据库每周更新一次，至今，PDB 收录的结构数据已超过十二万条，其中 90%以上为蛋白质结构。

详见视频：一级蛋白质结构数据库：PDB-01 P20
PDB ID：数据库检索号，一个结构对应一个 PBD ID，而不是一个蛋白质对应一个 PBD ID。
PDB 文件注释解读：一级蛋白质结构数据库：PDB-02 P21
PDB 文件 3D 展示 JSmal：一级蛋白质结构数据库：PDB-03 P22

1.6 二级蛋白质数据库 Pfam，CATH，SCOP2

详见视频：二级蛋白质数据库：Pfam，CATH，SCOP2 P23-P25

Pfam 数据库 是一个蛋白质结构域家族的集合。
CATH 数据库：结构分类数据库。CATH-Gene3D 还为超过 500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多数还未解析 3D 结构的蛋白质提供了重要的功能研究依据。
SCOP2 数据库：结构分类数据库。更多考虑蛋白质的进化关系。SCOP2 分类基于四个层次：从顶部到底部分别为类 (Class)、家族 (Family)、超家族 (Super family) 和折叠 (Fold)。

1.7 专用数据库 KEGG，OMIM

详见视频：专用数据库 KEGG，OMIM P26-P27

KEGG 是关于基因、蛋白质、生化反应以及通路的综合生物信息数据库，由多个子库构成。
OMIM 人类孟德尔遗传在线数据库 (Online Mendel Inheritance Inheritance in Man) ，是一个将遗传病分类，并链接到相关人类基因组中的数据库。OMIM为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。