常用生物数据库

1、蛋白质

  蛋白质(Protein)是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。一般说,蛋白质约占人体全部质量的18%,最重要的还是其与生命现象有关。

  蛋白质是生命的物质基础,是有机大分子,是构成细胞的基本有机物,是生命活动的主要承担者。氨基酸是蛋白质的基本组成单位。它是与生命及与各种形式的生命活动紧密联系在一起的物质。机体中的每一个细胞和所有重要组成部分都有蛋白质参与。蛋白质占人体重量的16%-20%,即一个60kg重的成年人其体内约有蛋白质9.6-12kg。人体内蛋白质的种类很多,性质、功能各异,但都是由20种氨基酸(Amino acid)按不同比例组合而成的,并在体内不断进行代谢与更新。【来源于百度百科】

  20中氨基酸分别是:丙氨酸(Ala)缬氨酸(Val)亮氨酸(Leu)异亮氨酸(Ile)脯氨酸(Pro)苯丙氨酸(Phe)色氨酸(Trp)蛋氨酸(Met)甘氨酸(Gly)丝氨酸(Ser)苏氨酸(Thr)半胱氨酸(Cys)酪氨酸(Tyr)天冬酰胺(Asn)谷氨酰胺(Gln)赖氨酸(Lys)精氨酸(Arg)组氨酸(His)天冬氨酸(Asp)谷氨酸(Glu)

  蛋白质结构
    ①一级结构:氨基酸序列
    ②二级结构:周期性的结构构象,α螺旋、β折叠等
    ③三级结构:整条多肽链的三维空间结构,3D结构
    ④四级结构:几个蛋白质分子(亚基)形成的复合体,如四聚体

2、生物数据库

(一)文献数据库

  1、PubMed:拥有超过两百六十万生物医学文献的数据库,这些文献来源于MEDLINE,也就是生物医学文献数据库、生命科学领域学术杂志、以及在线的专业书籍。链接:PubMed (nih.gov)

LL78G6.png

(二)一级核酸数据库

  1、GeneBank:是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划。为保证数据尽可能的完全,GeneBank与EMBL(欧洲EMBL-DNA数据库)、DDBJ(日本DNA数据库)共同构成国际核酸序列数据库合作联盟(INSDC),三大数据库的信息每日相互交换,更新汇总。链接:GenBank Overview (nih.gov)

LjQoO1.png

  2、基因组数据库

    ①Ensembl:由欧洲生物信息学研究所(EBI)和英国桑格研究院合作开发。Ensembl收入了各种动物的基因组,特别是那些离我们人类近的动物(脊椎动物)。链接:Ensembl genome browser 106

Lj34Sg.png

    ②微生物宏基因组数据库JCVI:美国基因组研究所(TIGR)致力于微生物基因组的研究,也有部分植物基因组项目。它是克莱格·凡特研究所的一部分。

(三)二级核酸数据库

  1、NCBI下属数据库,链接:National Center for Biotechnology Information (nih.gov)

LjJiRO.png

    ①RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列

    ②dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签(EST)

    ③Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录

    ④ncRNAdb:非编码RNA数据库,提供非编码RNA的序列和功能信息。包含来源于99种细菌、古细菌和真核生物的3万多条序列

    ⑤miRBase:主要存放已发表的microRNA序列和注释。可以分析microRNA在基因组中的定位和挖掘microRNA序列间的关系

(四)一级蛋白质序列数据库

  1、UniPort数据库,链接:UniProt

Lxy2bq.png

    ①swissprot:人工注释,注释可信度高、冗余度小

    ②TrEMBL:计算机注释,包含为蛋白质编码的核酸序列的所有翻译产物

    ③PIR:支持基因组学、蛋白质组学和系统生物学研究的综合公共生物信息学资源

    ④UniParc:收录所有UniPort数据库子库中的蛋白质序列,量大,粗糙

    ⑤UniRef:归纳UniPort几个主要数据库并将重复序列去除后的数据库

    ⑥UniProtKB:有详细注释并与其他数据库有链接的数据库

(五)一级蛋白质结构数据库

  1、PDB:蛋白质结构数据库(PDB)是全世界唯一存储生物大分子3D结构的数据库。这些生物大分子除了蛋白质以外还包括核酸及两者的复合物。只有通过实验方法获得的3D结构才会被收入其中。链接:RCSB PDB: Homepage

Lx2pzF.png

(六)二级蛋白质数据库

  1、Pfam数据库:Pfam数据库是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族

  2、CATH:结构分类数据库CATH,根据结构域的空间特征可以对结构域进行分类。数据库中四种结构分类层次分别是:蛋白质种类(class,C)、蛋白质二级结构的构架(architecture,A)、蛋白质的拓扑结构(topology,T)、蛋白质同源超家族(homologous superfamily,H)

  3、SCOP2:结构分类数据库,该数据库详细描述了已知结构的蛋白质在结构、进化事件与功能类型三个方面的关系。SCOP2把SCOP中仅基于蛋白质结构的树状等级分类系统发展成为单向非循环网状分类系统

(七)专项数据库

  1、KEGG:京都基因与基因组百科全书(KEGG),是关于基因、蛋白质、生化反应及通路的综合生物信息数据库,由多个子库构成

  2、OMIM:人类孟德尔遗传在线(OMIM),是一个有关人类遗传病的数据库,它将遗传病分类并链接到相关人类基因组中的数据库

猜你喜欢

转载自blog.csdn.net/CBB_FT/article/details/124504721