Dirección del curso : Bioinformática, Universidad de Shandong
Directorio de artículos
- 1. Base de datos biológica
-
- 1.1 Base de datos de literatura PubMed
- 1.2 Base de datos primaria de ácidos nucleicos
- 1.3 Base de datos secundaria de ácidos nucleicos
- 1.4 Base de datos de secuencias de proteínas primarias UniProt
- 1.5 Base de datos de estructura primaria de proteínas PBD
- 1.6 Base de datos secundaria de proteínas Pfam, CATH, SCOP2
- 1.7 Base de datos dedicada KEGG, OMIM
1. Base de datos biológica
1.1 Base de datos de literatura PubMed
- Estructura interna de los registros bibliográficos de PubMed
- Búsqueda por nombre de autor AU: Abajo [AU]
- Búsqueda por título TI: Abajo [TI]
- Búsqueda por dirección de laboratorio AD: Abajo [AD]
- Algunos consejos para usar PubMed :
use comillas ("síndrome de down")
use palabras lógicas Y, O, NO (dUTPase [T] AND bacteria [T] NOT Smith [AU])
use abreviaturas correctas ("Abergel C")
usando una ID única de PubMed para cada artículo (PMID: 24933525)
1.2 Base de datos primaria de ácidos nucleicos
1.2.1 INSDC = Genbank + ENA + DDBJ
- GenBank del NCBI
- Conjunto de datos de secuencia de nucleótidos europeos ENA
- Base de datos de ADN japonesa DDBJ
- Genbank, ENA y DDBJ constituyen conjuntamente la Colaboración internacional de bases de datos de secuencias de nucleótidos ( INSDC ). A través de INSDC , la información de las tres principales bases de datos de ácidos nucleicos se intercambia y actualiza diariamente, lo que hace que compartan los mismos datos casi en cualquier momento.
- Diferencias entre genes procarióticos y eucarióticos :
GenBank
(1) Secuencia de ácido nucleico procariótico : busque X01714 en Nucleótido
-
LOCUS: nombre del gen
-
ACCESIÓN: número de gen, el único sin cambios
-
CARACTERÍSTICAS: Describa cada región de fragmento identificada en la secuencia de ácido nucleico, incluidos muchos subelementos, como fuente, promotor, etc.
- fuente : Indica la fuente de la secuencia de ácido nucleico, para que pueda identificarse fácilmente si la secuencia se deriva del vector de clonación o del genoma . La secuencia actual (longitud completa) se deriva del ADN genómico de Escherichia coli.
- promotor: Muestra la posición del promotor. Las bacterias tienen dos regiones promotoras, unaÁrea -35 (5'-TTGACA-3')La posición es desde la base 286 hasta la base 291, una-Zona 10 (5'-TATAAT-3')Las posiciones son desde la base 310 hasta la base 316.
- misc_feature
- CDS(Segmento de codificación): se registra un ORF (marco de lectura abierto) , comenzando desde el ATG (codón de inicio) en la base 343 hasta el TAA (codón final) en la base 798. Además de la información de posición en la primera línea, también incluye mucha información sobre el producto de traducción (proteína).
-
formato RÁPIDO:
La primera línea, el signo mayor que más el nombre u otros comentarios
Después de la segunda línea: secuencia, 60 letras por línea
-
Gráficos : obtenga una descripción gráfica de la secuencia
-
Descargar registros de la base de datos en formato de texto sin formato (Flat File)
(2) ARNm de secuencia de ácido nucleico eucariótico : búsqueda de dUTPasa en nucleótidoARNm maduroInformación de secuencia U90223 .
- Preste atención para ver la parte de la nota de CDS, la codificación aquí es mitocondrial
- Hay una diferencia de 3 bases entre CDS y mat_peptide , porque las últimas 3 bases de CDS son codones de parada, que no traducen aminoácidos.
(3) ADN de secuencia de ácido nucleico eucariótico : búsqueda de dUTPasa en nucleótidoADN genómicoInformación de secuencia AF018430 . - fuente / mapa
- gen / ARNm
- Hay 2 tipos de ARNm que se forman después del empalme:
El ARNm anterior tiene un exón más, que se traducirá aPéptido señal localizado en mitocondrias, traduciendo así la proteína de tipo mitocondrial (mitochondrial form
) .
Un ARNm sin un péptido señal debajo se traducirá en una proteína nuclear (nuclear form
) .
- exón : la posición y el número del exón contenido en la secuencia actual.
1.2.2 Conjunto de base de datos del genoma
- Conjunto
- Vea el video para más detalles : Base de datos de ácido nucleico de 2,5 niveles: Base de datos del genoma-01 P14
1.2.3 Base de datos metagenómica microbiana
- Los Institutos Nacionales de Salud (NIH) establecieron el Proyecto Microbioma Humano ( HMP ). En la actualidad, HMP incluye principalmente los datos de muestras metagenómicas y el proceso de análisis de la cavidad nasal humana, la cavidad oral, la piel, el tracto gastrointestinal y el tracto genitourinario.
- Portal de datos del proyecto del microbioma humano
1.3 Base de datos secundaria de ácidos nucleicos
- Base de datos RefSeq : base de datos de secuencias de referencia , que es una base de datos no redundante seleccionada de forma automática y manual, que incluye la secuencia del genoma, la secuencia de la transcripción y la secuencia de la proteína.
- Base de datos dbEST : base de datos de etiquetas de secuencias expresadas , incluidas las etiquetas de secuencias expresadas (EST) de diferentes especies.
- Base de datos de genes : proporciona a los usuarios servicios de anotación y recuperación de secuencias de genes, incluidos 4,3 millones de registros de genes de más de 5300 especies.
- Base de datos de ARN no codificante : resumen de bases de datos de ncRNA
1.4 Base de datos de secuencias de proteínas primarias UniProt
- UniProt = Swiss-Prot + TrEMBL + PIR
- UniProt tiene tres niveles de bases de datos :
◆ UniParc : contiene todas las secuencias de proteínas en las subbibliotecas de la base de datos UniProt , que son grandes y aproximadas.
◆ UniRef : resuma varias bases de datos principales de UniProt y elimine las secuencias repetidas .
◆ UniProtKB :con notas detalladasLas bases de datos vinculadas con otras bases de datos se dividen en UniProtKB/Swiss-Prot (anotación manual, revisada) y UniProtKB/TrEMBL (anotación automática por computadora, no revisada). - Vea el video para más detalles : Base de datos de secuencias de proteínas primarias: UniProtKB-02 P18
1.5 Base de datos de estructura primaria de proteínas PBD
● La estructura de la proteína se puede dividir en cuatro niveles:
- Estructura primaria Estructura primaria: secuencia de aminoácidos
- Estructura secundaria Estructura secundaria: conformación estructural periódica, hélice α, hoja β, etc.
- Estructura terciaria: la estructura tridimensional de toda la cadena polipeptídica, estructura 3D
- Estructura cuaternaria: un complejo formado por varias moléculas de proteína (subunidades), como un tetrámero
● Protein Data Bank ( PDB ) es la única base de datos en el mundo que almacena la estructura 3D de macromoléculas biológicas . Además de proteínas , estas biomacromoléculas incluyen ácidos nucleicos y sus complejos . Solo se incluyen estructuras 3D obtenidas por métodos experimentales . En la actualidad, la base de datos PDB se actualiza una vez por semana.Hasta ahora, el PDB ha recopilado más de 120.000 datos estructurales, de los cuales más del 90% son estructuras de proteínas.
- Vea el video para más detalles : Base de datos de estructuras de proteínas primarias: PDB-01 P20
- ID de PDB : número de recuperación de la base de datos, una estructura corresponde a una ID de PBD , no una proteína corresponde a una ID de PBD.
- Interpretación de la anotación del archivo PDB : base de datos de estructura de proteína primaria: PDB-02 P21
- Archivo PDB Pantalla 3D JSmal : Base de datos de estructura de proteína primaria: PDB-03 P22
1.6 Base de datos secundaria de proteínas Pfam, CATH, SCOP2
- Vea el video para más detalles: Bases de datos de proteínas secundarias: Pfam, CATH, SCOP2 P23-P25
- La base de datos Pfam es una colección de familias de dominios de proteínas.
- Base de datos CATH : base de datos de taxonomía estructural . CATH-Gene3D también realiza predicciones de taxonomía estructural para más de 5 millones de secuencias de proteínas de bases de datos públicas . La información de Gene3D proporciona una base importante para la investigación funcional de la mayoría de las proteínas cuyas estructuras 3D aún no se han resuelto.
- Base de datos SCOP2 : base de datos de taxonomía estructural . Considere más sobre la relación evolutiva de las proteínas. La taxonomía SCOP2 se basa en cuatro niveles: clase, familia, superfamilia y pliegue de arriba a abajo.
1.7 Base de datos dedicada KEGG, OMIM
- Vea el video para más detalles: Base de datos dedicada KEGG, OMIM P26-P27
- KEGG es una base de datos de información biológica integral sobre genes, proteínas, reacciones y vías bioquímicas, que consta de múltiples subbibliotecas.
- OMIM Human Mendelian Inheritance Online Database (Online Mendel Inheritance Inheritance in Man) es una base de datos que clasifica enfermedades genéticas y las relaciona con genomas humanos relacionados. OMIM proporciona información detallada fidedigna y fidedigna sobre enfermedades genéticas y loci de enfermedades relacionadas para médicos e investigadores