[Notas del estudio] Bioinformática de la Universidad de Shandong-04 Predicción y análisis de la estructura de proteínas

Dirección del curso : Bioinformática, Universidad de Shandong


4. Predicción y análisis de la estructura de proteínas

4.1 Estructura secundaria de las proteínas

unidad de estructura secundaria común

  • Vea el video para más detalles : Estructura secundaria de proteínas-01 P73

  • Hélice : La más común es la hélice alfa. También hay espirales de tres vueltas, espirales de cinco vueltas, etc.

  • Hoja β ( ): la hoja β está formada por una disposición paralela βsheetde hojas β ( ). Pueden estar separados en secuencia , pero se sientan uno al lado del otro en el espacio , formando enlaces de hidrógeno entre sí .β-strand

  • Rizo aleatorio ( coil): Estructura suelta irregular.

  • Giro β ( turn): si la cadena peptídica tiene un giro brusco (ángulo superior a 90° ), esta estructura de giro se denomina giro β.
    inserte la descripción de la imagen aquí

  • La estructura secundaria de una proteína a menudo se describe en forma gráfica o alfabética
    : H: hélice
    E: hoja β
    T: representa un giro
    En blanco: estructura de espiral suelta
    inserte la descripción de la imagen aquí

  • DSSP (Definición de Estructura Secundaria de Proteínas), a saber, diccionario de definición de estructura secundaria de proteínas. DSSP no predice la estructura secundaria, pero señala qué estructura secundaria es para cada posición de la proteína cuya estructura terciaria ha sido determinada según la definición de estructura secundaria .
    URL de DSSP: http://swift.cmbi.ru.nl/gv/dssp
    inserte la descripción de la imagen aquí

  • Descargue directamente el archivo DSSP con la estructura existente en PDB :
    http://www.pdb.org/pdb/files/ 3cig .dssp (simplemente reemplace el nombre de la estructura con 3cig)
    ftp://ftp.cmbi.ru.n/pub / molbioldata/dssp / 3cig.dssp
    inserte la descripción de la imagen aquí

Obtenga información de estructura secundaria de proteínas de PDB

  • Vea el video para más detalles : Estructura secundaria de proteínas-02 PDB P74
  • Las estructuras primarias y secundarias de todas las proteínas almacenadas en la base de datos PDB se almacenan en un archivo de texto llamado " ss.txt " en formato FASTA (el archivo es muy grande e incómodo de usar).
    http://www.rcsb.org/pdb/files/ss.txt
    http://www.rcsb.org/pdb/files/ss.txt.gz (archivo comprimido 30,6 M)
  • Biotools autoprogramados (no se pueden abrir) http://1.51.215.28/~gongj/biotools/
    Ingrese el ID de PDB para obtener automáticamente archivos dssp de Internet y extraer información de secuencia de estructuras primarias y secundarias.

Predecir la estructura secundaria de la proteína

4.2 Estructura terciaria de las proteínas

  • La estructura terciaria se refiere a la estructura espacial tridimensional de toda la cadena polipeptídica, es decir, la disposición espacial de todos los átomos, incluidas la columna vertebral y las cadenas laterales.
  • Métodos para determinar la estructura terciaria: Cristalografía de rayos X (Cristalografía de rayos X), Resonancia Magnética Nuclear (NMR, Nuclear Magnetic Resonance), crio-microscopía electrónica, etc.
  • La estructura terciaria de la gran mayoría de las proteínas en el PDB se determinó por difracción de rayos X.
  • Las proteínas que no se pueden cristalizar se pueden determinar en medio líquido por RMN (solo para moléculas con una masa inferior a 70 kD , proteínas con más de 200 aminoácidos).
  • Vea el video para más detalles : Estructura terciaria de proteínas PDB P76
  • PDB también puede obtener la estructura terciaria de proteínas homólogas a la secuencia de entrada a través de la búsqueda de similitud de secuencia .
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí
  • Descargue el archivo PDB para que lo lea el software de visualización 3D posterior .
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí

4.3 Software de visualización de estructura terciaria VMD

4.4 Métodos computacionales para predecir la estructura terciaria

  • Métodos comunes :
    1. ab initio
    2. Método de modelado homólogo modelado homólogo (preferido)
    3. método de enhebrado
    4. método de conjunto

Método de modelado de homología SWISS-MODEL

  • Principio : Secuencias de aminoácidos similares corresponden a estructuras proteicas similares.
  • Proceso de pasos :
    1. Encuentre una estructura conocida homóloga a la secuencia objetivo como plantilla ( la identidad entre la secuencia objetivo y la secuencia plantilla debe ser ≥30 % ).
    2. Cree una alineación de secuencias entre la secuencia de destino y la secuencia de plantilla (múltiple) . A menudo, las alineaciones de secuencias creadas automáticamente por el software de alineación requieren una corrección manual adicional .
    3. En función de la alineación de secuencias creada en el segundo paso, se predice un modelo estructural con el software de modelado de homología .
    4. Evalúe la calidad del modelo y repita el proceso anterior de acuerdo con los resultados de la evaluación hasta que se califique la calidad del modelo.
      inserte la descripción de la imagen aquí
  • SWISS-MODEL es un software en línea completamente automático para predecir la estructura terciaria de proteínas mediante modelos de homología.
  • Para obtener más información, consulte el vídeo : Método de cálculo para predecir la estructura terciaria-02 SWISS-MODEL P82
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí
  • Efecto predictivo : el modelado de homología es el método más preciso si la secuencia objetivo es muy consistente con la secuencia molde. ◆ Si hay una distancia entre la secuencia de destino y la secuencia de plantillainserte la descripción de la imagen aquí
    Consistencia <30% , entonces el método de modelado de homología no es aplicable.
    ◆ Cuando la consistencia alcanza el 30% , la precisión del modelo puede alcanzar el 80% El modelo se puede utilizar para encontrar sitios funcionales e inferir relaciones funcionales.
    ◆ Cuando la consistencia alcanza el 50% , la precisión del modelo puede alcanzar el 95% Según el modelo, podemos diseñar experimentos de mutación de punto fijo e incluso reemplazar la estructura cristalina para ayudar a determinar la estructura real.
    ◆ Cuando la consistencia alcanza más del 70% , se puede considerar que el modelo de predicción representa completamente la estructura real y se puede usar para la investigación de función estructural, como la detección virtual, el acoplamiento molecular y el diseño de fármacos.
    Caso especial : Aunque la identidad de la secuencia alcanza un alto nivel, la estructura no es la misma . Como se muestra en la figura a continuación, se produce una mala ubicación
    de un aminoácido en la estructura cristalina , lo que da como resultado un giro de 60° en la dirección de la última aleta, lo que cambia la posición espacial de los residuos C-terminales y, por lo tanto, conduce a diferencias funcionales entre los dos.
    inserte la descripción de la imagen aquí

Método de enhebrado I-TASSER

  • Principio : Secuencias de aminoácidos diferentes también pueden corresponder a estructuras proteicas similares . (Se usa cuando el método de modelado del mismo origen no puede encontrar una plantilla similar)

  • Hay alrededor de 100,000 estructuras de proteínas conocidas, con solo 1393 topologías estructurales diferentes , y no .

  • Ponga la secuencia objetivo en la estructura existente actual como un hilo, y use la estructura que sea más cómoda de usar como plantilla de predicción ; y a través de la ecuación de energía , si es cómoda de usar, la energía será baja y construirse de acuerdo con el modelo final del método de uso más cómodo.
    inserte la descripción de la imagen aquí

  • Este método es computacionalmente intensivo y requiere mucho tiempo.

  • I-TASSER es un software en línea para predecir la estructura terciaria de proteínas mediante el método de subprocesamiento y ha obtenido el primer puesto en varios concursos consecutivos de predicción de estructuras de proteínas. El autor es el profesor Zhang Yang de la Universidad de Michigan.

  • Vea el video para más detalles : Método de cálculo para predecir la estructura terciaria-03 método de roscado I-TASSER P83
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí

    • Buscar tareas por número de tarea
      inserte la descripción de la imagen aquí
      inserte la descripción de la imagen aquí
    • resultado del pronóstico
      inserte la descripción de la imagen aquí
      inserte la descripción de la imagen aquí
      inserte la descripción de la imagen aquí
    • Información del modelo de predicción :
      (1) Coeficiente de evaluación de la calidad del modelo C-score : [-5, 2] Cuanto mayor sea la puntuación, mayor será la credibilidad del modelo;
      (2) TM-socre: Coeficiente de similitud estructural por pares , > 0.5que indica que el modelo tiene la topología estructural correcta y es creíble ; <0.17Indica que el modelo es un modelo estocástico, no confiable ;
      (3) : La desviación de distanciaRMSD entre cualquier par de estructuras .
      inserte la descripción de la imagen aquí
      inserte la descripción de la imagen aquí
    • La función predicha de la proteína, así como el ligando al que se puede unir y el sitio de unión del ligando .
      inserte la descripción de la imagen aquí

Método ab initio: QUARK

  • Principio : Anfinsen en "Science" en 1973: La estructura tridimensional de una proteína está determinada por su propia secuencia de aminoácidos y se encuentra en el estado de energía libre más bajo.
  • Para algunas proteínas especiales, el modelo de estructura terciaria no se puede predecir mediante el método de enhebrado. En este momento, el método de cálculo ab initio se puede utilizar para simular todas las posturas posibles de un péptido en un espacio tridimensional y calcular la energía libre de cada postura, y finalmente == libre La actitud más baja se puede utilizar como resultado de la predicción == (una gran cantidad de cálculo, por lo que no es fácil de usar).
  • QUARK es un software en línea para predecir la estructura terciaria de las proteínas mediante el cálculo ab initio. Es adecuado paraproteínas sin plantillas homólogas , y la longitud de la secuencia de aminoácidos es inferior a 200 , y el tiempo de cálculo es de aproximadamente 2 días o más.
  • Vea el video para más detalles : Método de cálculo para predecir la estructura terciaria-04 Método ab initio QUARK P84
  • De acuerdo con la puntuación de TM, verifique si el modelo está calificado y disponible .
    inserte la descripción de la imagen aquí

Método integral ROBETTA

  • Principio : combinación de múltiples métodos, como el método de modelado de homología, el método de enhebrado y el método de cálculo ab initio,Segmente la secuencia de aminoácidos y use diferentes métodos para predecir fragmentos en diferentes situaciones
  • ROBETTA combina el método de modelado por homología y el método de cálculo ab initio . La región donde se puede encontrar la plantilla usa el método de modelado por homología, y la región donde no se puede encontrar la plantilla usa el método de cálculo ab initio. (El tiempo requerido es el más largo entre los métodos anteriores., hacer cola)
  • Vea el video para más detalles : Método de cálculo para predecir la estructura terciaria-05 método integral ROBETTA P85
  • La secuencia completa se divide en múltiples dominios, y cada dominio usa diferentes métodos para predecir por separado. El modelado de homología toma de horas a días y ab initio toma de días a semanas , dependiendo de qué tan "fácil" sea predecir la secuencia objetivo .
    inserte la descripción de la imagen aquí
  • Resumen: ¿Qué método usar?
    inserte la descripción de la imagen aquí

Evaluación de la calidad del modelo

  • Programas de evaluación de la calidad del modelo (Programas de evaluación de la calidad del modelo, MQAPs)
    Para los modelos obtenidos mediante métodos de cálculo, se deben realizar las evaluaciones de calidad del modelo necesarias para determinar la confiabilidad de los modelos. El software de evaluación de la calidad del modelo no compara la diferencia entre el modelo predicho y la estructura real , pero a partir de laGeometría espacial, estereoquímica y distribución de energía.Se utilizan tres aspectos para evaluar la auto-razonabilidad de un modelo .
  • La mayoría del software viene con coeficientes de evaluación de la calidad del modelo:
    I-TASSER : C-scoreel rango de valores es [-5,2], cuanto mayor sea la puntuación, más fiable será el modelo.
    Swiss-Model : QMEAN4el rango de valores es [0,1], cuanto mayor sea la puntuación, más fiable será el modelo.
    QUARK : TM-score>0,5 significa que el modelo es fiable, <0,17 significa que el modelo no es fiable.
    inserte la descripción de la imagen aquí
  • Se requieren al menos tres sistemas de evaluación de la calidad del modelo para considerar que el modelo es confiable antes de que el modelo pueda considerarse confiable. Por lo tanto, se requiere un software de evaluación de modelos de terceros .
  • Para obtener más información, consulte el video : Predicción de la estructura terciaria mediante métodos computacionales-06 Evaluación de la calidad del modelo P86
  • SAVES de uso común proporciona 6 modelos de software de evaluación de la calidad. Puede trabajar con 6 software a la vez, o puede elegir el software de uso común Verify3D, PROCHECKy ERRAT.
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí
  • ProQ refleja la calidad del modelo a través de dos valores de LGscore y MaxSub. El tiempo de cálculo es de solo diez segundos y el resultado de la evaluación es claro.
    inserte la descripción de la imagen aquí
  • Los resultados de la evaluación de ModFold son claros. La evaluación dura aproximadamente 30 minutos y una dirección de correo electrónico solo puede enviar una tarea de evaluación a la vez.

4.5 Alineación de estructuras terciarias

  • La comparación estructural es comparar la similitud de la estructura del espacio tridimensional de la proteína , que es uno de los medios importantes del análisis de la estructura de la proteína.
    1. Se puede utilizar para explorar la evolución de proteínas y las relaciones de homología.
    2. Mejora de la precisión de las alineaciones de secuencias
    3. Mejora de las herramientas de predicción de la estructura de proteínas
    4. Proporcionar una base para la clasificación de la estructura de proteínas.
    5. Ayudar a comprender la función de las proteínas
  • El resultado del alineamiento estructural se puede medir por muchos parámetros , el más comúnmente utilizado es la desviación cuadrática media ( RMSD).
    Si el RMSD de las dos estructuras es de 0 angstroms , entonces tienen una estructura consistente y se pueden superponer por completo; en términos generales, cuando el RMSD es inferior a 3 angstroms , las dos estructuras se consideran similares .

superpuesto

Superposición de selección de SPDBV

  • SPDBV es un software de análisis de estructura de proteínas y una plataforma de modelado de homología de proteínas. Su función de superposición estructural es muy buena. Se puede realizar un plegado inteligente general o un plegado selectivo. Después de la descarga, no hay necesidad de instalar y ejecutar directamente.
  • Para más detalles, consulte el video : Alineación de estructuras terciarias-02 Superposición de selección SPDBV P88

4.6 Propiedades superficiales de las moléculas de proteína

  1. Forma de la superficie ( VMD : SURF representation)
  2. Distribución de carga superficial ( electrostatic potential)
  3. Solubilidad de los residuos superficiales ( solvent acessibiliy): es decir, el grado de contacto entre los residuos y los solventes , es decir, qué partes están enterradas en el interior ( buried); qué partes están expuestas en la superficie ( ); qué partes están en estado intermedioexposed entre enterradas y expuesto ( ).intermediate

4.7 Obtención de estructura cuaternaria de proteínas

  • La estructura cuaternaria de una proteína es un complejo formado por la agregación de unidades estructurales terciarias independientes, en el que cada estructura terciaria independiente se denomina subunidad , también conocida como monómero ( monomer). Una proteína con dos subunidades se llama dímero ( dimer); una proteína con tres subunidades se llama trímero ( trimer); también hay tetrámeros (tetrámeros), pentámeros (pentámeros) y hexámeros (hexámeros).

  • Enfermedades causadas por la agregación anormal de proteínas
    La proteína amiloide (A), que induce la neurodegeneración, es un representante típico de las enfermedades inducidas por la misma secuencia proteica pero con diferentes estructuras cuaternarias .
    Enfermedad de Alzheimer (enfermedad de Alzheimer, AD): el amiloide aparece en el curso de la EA.
    ◆ A se produce por la hidrólisis de su proteína precursora mediante enzimas hidrolíticas especiales.
    ◆ A tiene dos conformaciones , una es helicoidal y soluble y existe en el tejido cerebral de individuos sanos, este tipo de A es un monómero sin estructura cuaternaria, la otra es una lámina y es una lámina intercatenaria formada por la agregación de múltiples A capa , tal A es insoluble y se produce en el tejido cerebral de los pacientes con AD .
    ◆ El mecanismo para inducir la transición de A de hélices solubles a agregados laminares insolubles no está claro, pero se ha demostrado ampliamente que esta transición conformacional es un desencadenante importante de AD.

  • Adquisición de la estructura cuaternaria: método experimental (alto costo)
    (1) Cristalografía de rayos X : la cristalografía de rayos X puede obtener con precisión la estructura del complejo, pero es técnicamente difícil porque el complejo es difícil de obtener y cristalizar con éxito.
    (2) Microscopía criolectrónica : no se puede obtener la estructura precisa, solo se puede obtener la sombra o el contorno, y luego los monómeros en la sombra se modelan de manera homóloga de acuerdo con la estructura cristalina de la proteína homóloga existente, y luego el modelo encaja en la sombra.

  • Adquisición de estructura cuaternaria: adquisición de base de datos (base de datos de relaciones de interacción de proteínas)
    DIP (la base de datos de proteínas que interactúan): la interacción relativa entre proteínas determinada por métodos experimentales . http://dip.doe-mbi.ucla.edu/dip/Main.cgi
    BioGRID (Repositorio General Biológico para Conjuntos de Datos de Interacción): recopila principalmente interacciones proteína-proteína involucradas en el conjunto de datos de especies de organismos modelo http://thebiogrid.org/
    ◆ Los experimentos STRING miden interacciones proteína-proteína conocidas y predichas computacionalmente . http://string-db.org/

4.8 Acoplamiento molecular proteína-proteína

  • Acoplamiento molecular ( docking): Acoplamiento molecular proteína-proteína. ( Métodos computacionales para predecir la estructura cuaternaria de proteínas)
  • El software actual para el acoplamiento molecular consiste en probar todas las formas de enlace posibles y clasificar cada forma de acuerdo con la función de puntuación (nivel de energía ) .
  • Se considerarán los siguientes factores durante el proceso de acoplamiento:
    ◆ Formas complementarias
    ◆ Hidrofílico e hidrofóbico
    ◆ Distribución de carga superficial
  • Dos acopladores moleculares proteína-proteína:
    Rigid Docking Acoplamiento rígido : La mayoría del software actualmente disponible es acoplamiento rígido.
    Flexible Docking Acoplamiento flexible : una gran cantidad de cálculo, menos software disponible y la mayoría de ellos son software de pago.
  • Software de acoplamiento de uso común para la interacción de proteínas
    ZDOCK : http://zdock.umassmed.edu/
    GRAMM-X : http://vakser.bioinformatics.ku.edu/resources/gramm/grammx
    ◆ Los valores de salida son de acoplamiento múltiple ( Ordenar según el nivel de energía, la energía baja ocupa el primer lugar ). Los resultados se pueden ver con VMD.
    ◆ La salida de GRAMM-X, es decir, varios estados de acoplamiento, se guardan en el mismo archivo PDB. El archivo PDB contiene varios marcos y cada marco es un estado de acoplamiento. Guarde un estado en el resultado de salida: seleccione el archivo actual en VMD principal, haga clic con el botón derecho en Eliminar fotogramas, elimine los estados que no sean necesarios y luego haga clic con el botón derecho en Guardar coordenadas para guardar el único estado restante sin eliminar.
  • Para obtener más información, consulte el vídeo : Software de acoplamiento de uso común para la interacción de proteínas P92
    inserte la descripción de la imagen aquí
  • Análisis de superficie de interacción PDBePISAs
  • Vea el video para más detalles : PDBePISAs Interaction Surface Analysis P93
    inserte la descripción de la imagen aquí

4.9 Acoplamiento de proteína-molécula pequeña

4.10 Cribado virtual y acoplamiento inverso

proyección virtual

  • Cribado virtual El cribado virtual ( VS), también conocido como cribado informático , es preseleccionar moléculas de compuestos en una computadora antes de cribar la actividad biológica, a fin de reducir el número de compuestos realmente cribados y mejorar la eficiencia de descubrimiento de los compuestos principales . (Ahora mismo,Preselección de moléculas pequeñas que interactúan con proteínas, seleccione la mejor molécula pequeña en los resultados del cribado virtual para la verificación experimental. )
  • Base de datos ZINC : base de datos de moléculas pequeñas de compuestos http://zinc.docking.org
  • Proceso de selección virtual :
    1. Descargue estructuras 3D de moléculas pequeñas de la base de datos de moléculas pequeñas ZINC;
    2. El programa maneja archivos de moléculas pequeñas descargados;
    3. El software procesa moléculas de proteína y establece el rango de espacio de acoplamiento;
    4. El programa AutoDock Vina completa el acoplamiento en lotes;
    5. Análisis de resultados de acoplamiento, selección de moléculas pequeñas adecuadas: ordenar por energía libre, primero la más baja.
    6. Análisis de software #1 Estado de acoplamiento de moléculas pequeñas
    7. Compre las moléculas pequeñas filtradas del vendedor y verifíquelas experimentalmente.
  • Proyección virtual con AutoDock Vina gratuito
  • Vea el video para más detalles : Proyección virtual P97
  • Vea el video para más detalles : AutoDock Vina Tutorial P98

acoplamiento inverso

  • Acoplamiento inverso ( Target Fishing): busca objetivos potenciales mediante el acoplamiento de una pequeña molécula con múltiples proteínas objetivo .

  • Software y tecnología actuales : tambiénSin software libre estándar y maduroSolo unos pocos programas de pago pueden realizar esta función, y pocos institutos de investigación la realizan a través de su propio algoritmo y la modificación de los programas de acoplamiento existentes.

  • Base de datos de destino http://bioinfo-pharma.u-strasbg.fr/scPDB

  • scPDB : una base de datos anotada de sitios de unión a medicamentos del Protein DataBank

  • scPDB recopila proteínas con sitios de unión a fármacos en la base de datos PDB . Las búsquedas se pueden realizar en función de ligandos, proteínas y métodos de unión.

  • La versión actual contiene: 8077 entradas, 2377 proteínas y 5233 ligandos se pueden descargar para uso local, cada proteína tiene una carpeta separada, cada carpeta contiene los siguientes archivos: ligand_xray.mol2: cristales de ligando extraídos del complejo original Estructura
    protein.mol2
    : La estructura del receptor de la proteína con la estructura del ligando eliminada
    site.mol2: La estructura del receptor de la proteína con la estructura del ligando eliminada, incluido solo el sitio de unión

  • Acoplamiento inverso ( =acoplamiento directo múltiple )
    ◆ Atravesar archivos de bases de datos de proteínas para obtener cada proteína y sus archivos relacionados
    ◆ El software detecta automáticamente el sitio de unión, e identifica el área de unión y realiza automáticamente un bucle para hacer que la molécula pequeña se acople con cada receptor de proteína
    ◆ Puntuación , filtrado y clasificación

4.11 Simulación de dinámica molecular

  • Simulación dinámica molecular (MDS): la computadora se utiliza para simular el proceso de movimiento físico de átomos y moléculas .
  • Software: NAMD, CHARMM, DESMOND, GAUSS, etc. (requiere una supercomputadora para completarse).
  • Vea el video para más detalles : Simulación de dinámica molecular P100

Supongo que te gusta

Origin blog.csdn.net/zea408497299/article/details/125186477
Recomendado
Clasificación