【Notas del estudio】Base de datos biológica de bioinformática-01 de la Universidad de Shandong

Dirección del curso : Bioinformática, Universidad de Shandong


1. Base de datos biológica

1.1 Base de datos de literatura PubMed

  • Estructura interna de los registros bibliográficos de PubMed
  • Búsqueda por nombre de autor AU: Abajo [AU]
  • Búsqueda por título TI: Abajo [TI]
  • Búsqueda por dirección de laboratorio AD: Abajo [AD]
  • Algunos consejos para usar PubMed :
    use comillas ("síndrome de down")
    use palabras lógicas Y, O, NO (dUTPase [T] AND bacteria [T] NOT Smith [AU])
    use abreviaturas correctas ("Abergel C")
    usando una ID única de PubMed para cada artículo (PMID: 24933525)

1.2 Base de datos primaria de ácidos nucleicos

1.2.1 INSDC = Genbank + ENA + DDBJ

  1. GenBank del NCBI
  2. Conjunto de datos de secuencia de nucleótidos europeos ENA
  3. Base de datos de ADN japonesa DDBJ
  • Genbank, ENA y DDBJ constituyen conjuntamente la Colaboración internacional de bases de datos de secuencias de nucleótidos ( INSDC ). A través de INSDC , la información de las tres principales bases de datos de ácidos nucleicos se intercambia y actualiza diariamente, lo que hace que compartan los mismos datos casi en cualquier momento.
  • Diferencias entre genes procarióticos y eucarióticos :
    inserte la descripción de la imagen aquí

GenBank

(1) Secuencia de ácido nucleico procariótico : busque X01714 en Nucleótido

  • LOCUS: nombre del gen

  • ACCESIÓN: número de gen, el único sin cambios
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí

  • CARACTERÍSTICAS: Describa cada región de fragmento identificada en la secuencia de ácido nucleico, incluidos muchos subelementos, como fuente, promotor, etc.
    inserte la descripción de la imagen aquí

    • fuente : Indica la fuente de la secuencia de ácido nucleico, para que pueda identificarse fácilmente si la secuencia se deriva del vector de clonación o del genoma . La secuencia actual (longitud completa) se deriva del ADN genómico de Escherichia coli.
    • promotor: Muestra la posición del promotor. Las bacterias tienen dos regiones promotoras, unaÁrea -35 (5'-TTGACA-3')La posición es desde la base 286 hasta la base 291, una-Zona 10 (5'-TATAAT-3')Las posiciones son desde la base 310 hasta la base 316.
    • misc_feature
      inserte la descripción de la imagen aquí
    • CDS(Segmento de codificación): se registra un ORF (marco de lectura abierto) , comenzando desde el ATG (codón de inicio) en la base 343 hasta el TAA (codón final) en la base 798. Además de la información de posición en la primera línea, también incluye mucha información sobre el producto de traducción (proteína).
      inserte la descripción de la imagen aquí inserte la descripción de la imagen aquí
      inserte la descripción de la imagen aquí
      inserte la descripción de la imagen aquí
  • formato RÁPIDO:
    La primera línea, el signo mayor que más el nombre u otros comentarios
    Después de la segunda línea: secuencia, 60 letras por línea
    inserte la descripción de la imagen aquí

  • Gráficos : obtenga una descripción gráfica de la secuencia
    inserte la descripción de la imagen aquí

  • Descargar registros de la base de datos en formato de texto sin formato (Flat File)
    inserte la descripción de la imagen aquí

(2) ARNm de secuencia de ácido nucleico eucariótico : búsqueda de dUTPasa en nucleótidoARNm maduroInformación de secuencia U90223 .

  • Preste atención para ver la parte de la nota de CDS, la codificación aquí es mitocondrial
    inserte la descripción de la imagen aquí
  • Hay una diferencia de 3 bases entre CDS y mat_peptide , porque las últimas 3 bases de CDS son codones de parada, que no traducen aminoácidos.
    inserte la descripción de la imagen aquí
    (3) ADN de secuencia de ácido nucleico eucariótico : búsqueda de dUTPasa en nucleótidoADN genómicoInformación de secuencia AF018430 .
  • fuente / mapa
    inserte la descripción de la imagen aquí
  • gen / ARNm
    inserte la descripción de la imagen aquí
  • Hay 2 tipos de ARNm que se forman después del empalme:
    El ARNm anterior tiene un exón más, que se traducirá aPéptido señal localizado en mitocondrias, traduciendo así la proteína de tipo mitocondrial ( mitochondrial form) .
    Un ARNm sin un péptido señal debajo se traducirá en una proteína nuclear ( nuclear form) .
    inserte la descripción de la imagen aquí
  • exón : la posición y el número del exón contenido en la secuencia actual.
    inserte la descripción de la imagen aquí

1.2.2 Conjunto de base de datos del genoma

1.2.3 Base de datos metagenómica microbiana

  • Los Institutos Nacionales de Salud (NIH) establecieron el Proyecto Microbioma Humano ( HMP ). En la actualidad, HMP incluye principalmente los datos de muestras metagenómicas y el proceso de análisis de la cavidad nasal humana, la cavidad oral, la piel, el tracto gastrointestinal y el tracto genitourinario.
  • Portal de datos del proyecto del microbioma humano

1.3 Base de datos secundaria de ácidos nucleicos

  • Base de datos RefSeq : base de datos de secuencias de referencia , que es una base de datos no redundante seleccionada de forma automática y manual, que incluye la secuencia del genoma, la secuencia de la transcripción y la secuencia de la proteína.
  • Base de datos dbEST : base de datos de etiquetas de secuencias expresadas , incluidas las etiquetas de secuencias expresadas (EST) de diferentes especies.
  • Base de datos de genes : proporciona a los usuarios servicios de anotación y recuperación de secuencias de genes, incluidos 4,3 millones de registros de genes de más de 5300 especies.
  • Base de datos de ARN no codificante : resumen de bases de datos de ncRNA

1.4 Base de datos de secuencias de proteínas primarias UniProt

  • UniProt = Swiss-Prot + TrEMBL + PIR
  • UniProt tiene tres niveles de bases de datos :
    UniParc : contiene todas las secuencias de proteínas en las subbibliotecas de la base de datos UniProt , que son grandes y aproximadas.
    UniRef : resuma varias bases de datos principales de UniProt y elimine las secuencias repetidas .
    UniProtKB :con notas detalladasLas bases de datos vinculadas con otras bases de datos se dividen en UniProtKB/Swiss-Prot (anotación manual, revisada) y UniProtKB/TrEMBL (anotación automática por computadora, no revisada).
  • Vea el video para más detalles : Base de datos de secuencias de proteínas primarias: UniProtKB-02 P18

1.5 Base de datos de estructura primaria de proteínas PBD

● La estructura de la proteína se puede dividir en cuatro niveles:

  • Estructura primaria Estructura primaria: secuencia de aminoácidos
  • Estructura secundaria Estructura secundaria: conformación estructural periódica, hélice α, hoja β, etc.
  • Estructura terciaria: la estructura tridimensional de toda la cadena polipeptídica, estructura 3D
  • Estructura cuaternaria: un complejo formado por varias moléculas de proteína (subunidades), como un tetrámero

Protein Data Bank ( PDB ) es la única base de datos en el mundo que almacena la estructura 3D de macromoléculas biológicas . Además de proteínas , estas biomacromoléculas incluyen ácidos nucleicos y sus complejos . Solo se incluyen estructuras 3D obtenidas por métodos experimentales . En la actualidad, la base de datos PDB se actualiza una vez por semana.Hasta ahora, el PDB ha recopilado más de 120.000 datos estructurales, de los cuales más del 90% son estructuras de proteínas.

1.6 Base de datos secundaria de proteínas Pfam, CATH, SCOP2

  1. La base de datos Pfam es una colección de familias de dominios de proteínas.
  2. Base de datos CATH : base de datos de taxonomía estructural . CATH-Gene3D también realiza predicciones de taxonomía estructural para más de 5 millones de secuencias de proteínas de bases de datos públicas . La información de Gene3D proporciona una base importante para la investigación funcional de la mayoría de las proteínas cuyas estructuras 3D aún no se han resuelto.
  3. Base de datos SCOP2 : base de datos de taxonomía estructural . Considere más sobre la relación evolutiva de las proteínas. La taxonomía SCOP2 se basa en cuatro niveles: clase, familia, superfamilia y pliegue de arriba a abajo.

1.7 Base de datos dedicada KEGG, OMIM

  1. KEGG es una base de datos de información biológica integral sobre genes, proteínas, reacciones y vías bioquímicas, que consta de múltiples subbibliotecas.
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí
  2. OMIM Human Mendelian Inheritance Online Database (Online Mendel Inheritance Inheritance in Man) es una base de datos que clasifica enfermedades genéticas y las relaciona con genomas humanos relacionados. OMIM proporciona información detallada fidedigna y fidedigna sobre enfermedades genéticas y loci de enfermedades relacionadas para médicos e investigadores
    inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/zea408497299/article/details/125100031
Recomendado
Clasificación