Graformador distribucional: de la predicción de la estructura molecular a la predicción de la distribución en equilibrio

Nota del editor: en los últimos años, las técnicas de aprendizaje profundo han hecho un gran progreso en la predicción de la microestructura molecular. Sin embargo, las propiedades y funciones macroscópicas de las moléculas a menudo dependen de la distribución de las estructuras moleculares en equilibrio, y no es suficiente comprender solo la estructura microscópica de las moléculas. En la mecánica estadística tradicional, la simulación de dinámica molecular o el muestreo mejorado son métodos comunes para obtener muestras en distribución en equilibrio, pero estos métodos son costosos y consumen mucho tiempo.

En respuesta a este arduo desafío a largo plazo, Microsoft Research lanzó Distributional Graphormer (DiG), un marco de aprendizaje profundo que se puede usar para predecir la distribución de equilibrio de las estructuras moleculares. DiG puede generar rápidamente conformaciones realistas y diversas, sentando así las bases para un gran avance desde la predicción de una sola estructura hasta la predicción de distribución en equilibrio. Los experimentos han demostrado que DiG exhibe un excelente rendimiento y potencial en tareas de muestreo como proteínas, complejos proteína-ligando y sistemas de catalizador-adsorbato, lo que abre nuevos horizontes para la investigación en ciencias moleculares y proporciona nuevos conocimientos sobre el diseño de fármacos, la ciencia de los materiales, etc. y otros campos traen nuevas posibilidades.


La predicción de estructuras es un tema fundamental en la ciencia molecular porque la estructura tridimensional de una molécula determina sus propiedades y funciones. En los últimos años, los métodos de aprendizaje profundo han logrado un progreso notable en la predicción de la estructura molecular y han tenido un impacto significativo. Por ejemplo, los modelos de aprendizaje profundo AlphaFold y RoseTTAFold han logrado una precisión sin precedentes en la predicción de la estructura proteica más probable a partir de la secuencia de aminoácidos; gana el Open Catalyst Challenge. Aunque los métodos de aprendizaje profundo han cambiado el juego de la ciencia molecular, proporcionar una instantánea única de la estructura estática de una molécula solo revela la punta del iceberg de los sistemas moleculares complejos.

Tomemos como ejemplo las moléculas de proteína. Las proteínas no son objetos rígidos. Son moléculas dinámicas que pueden asumir diferentes estructuras en equilibrio. Cada estructura tiene una probabilidad específica de aparición. La estructura bajo la distribución de equilibrio y su probabilidad de ocurrencia determinan las propiedades y funciones macroscópicas de la molécula, para revelar sus principios biológicos y tener un impacto en las aplicaciones del mundo real. Sin embargo, los métodos tradicionales para obtener estas distribuciones equilibradas, como la simulación de dinámica molecular o el muestreo de Monte Carlo, se muestrean secuencialmente a partir de la distribución.Debido al alto costo computacional y la independencia estadística entre las muestras de muestreo, este tipo de método es difícil de usar. fácilmente en escenarios complejos de aplicación práctica. Por lo tanto, existe una necesidad urgente de encontrar un nuevo método en el campo de la ciencia molecular, que pueda pasar del problema de la predicción de la estructura molecular a la predicción de la distribución del equilibrio molecular.

DiG: predicción de la distribución de estructuras moleculares en equilibrio

El nuevo marco de aprendizaje profundo Distributional Graphormer (DiG)[1][2] lanzado por Microsoft Research puede usarse para predecir la distribución de estructuras moleculares en equilibrio.nuevas oportunidades. DiG logra un avance importante que se extiende desde la predicción de una sola estructura hasta la predicción por conjuntos de distribuciones equilibradas. La predicción de distribución de equilibrio cierra la brecha entre la microestructura y las propiedades macroscópicas de los sistemas moleculares regidos por la mecánica estadística y la termodinámica. Esta es una tarea muy desafiante ya que requiere modelar distribuciones complejas en espacios de alta dimensión para capturar las probabilidades de diferentes estados moleculares.

Figura 1: El objetivo de DiG es tomar como entrada un descriptor básico de un sistema molecular (como una secuencia de aminoácidos o una fórmula química molecular) y predecir estructuras y sus probabilidades que se ajustan a una distribución de equilibrio.

Al ampliar el trabajo de investigación anterior Graphormer, DiG implementó una nueva solución para la predicción distributiva. Graphormer es un transformador gráfico (Graph) de uso general que puede comprender y modelar estructuras moleculares de manera eficaz. Ha demostrado un rendimiento excelente en ciencia molecular y también se ha aplicado en química cuántica o simulaciones de dinámica molecular[3 ][4]. Ahora, DiG tiene una función más nueva y poderosa: la predicción directa de la distribución de equilibrio mediante una red neuronal profunda.

DiG está inspirado en el método clásico de termodinámica y optimización: algoritmo de recocido simulado (recocido simulado), al simular un proceso aleatorio, una distribución simple se perfecciona gradualmente, generando así una distribución compleja. La predicción de este proceso estocástico se realiza en un marco de aprendizaje profundo. Este es también el patrón que ha impulsado recientemente la IA generativa hacia los modelos de difusión ardiente. DiG trae esta idea de vuelta al estudio de la termodinámica, formando un circuito cerrado de inspiración e innovación. Es concebible que en un futuro cercano, los científicos puedan usar DiG para generar estructuras moleculares al igual que usar IA para dibujar: al ingresar una descripción simple, como una secuencia de aminoácidos, DiG puede generar rápidamente una estructura molecular verdadera y diversa. que se ajusta a una distribución equilibrada. Esto aumentará en gran medida la productividad y la creatividad de los científicos, lo que permitirá nuevos descubrimientos y aplicaciones en campos como el diseño de fármacos, la ciencia de los materiales y la catálisis.

DiG anula la tradición en las tareas de muestreo de varios sistemas moleculares

El marco DiG ha demostrado un excelente rendimiento y potencial en múltiples tareas de muestreo molecular que cubren una amplia gama de sistemas moleculares, como proteínas, complejos proteína-ligando y sistemas catalizador-adsorbato, etc. Los hallazgos revelan que DiG no solo permite la generación de estructuras moleculares realistas y diversas con alta eficiencia y bajo costo computacional, sino que también proporciona una estimación de la densidad de estados, que es crucial para calcular propiedades macroscópicas utilizando mecánica estadística. DiG ha hecho un progreso significativo en la comprensión estadística de las moléculas microscópicas y en la predicción de sus propiedades macroscópicas, creando oportunidades de investigación más interesantes en la ciencia molecular.

Una de las aplicaciones importantes de DiG es el muestreo de conformaciones de proteínas, que es esencial para comprender las propiedades y funciones de las proteínas. Las proteínas son moléculas dinámicas que forman diferentes estructuras con diferentes probabilidades en equilibrio, y estas estructuras a menudo están relacionadas con sus funciones biológicas e interacciones con otras moléculas. Pero predecir la distribución de equilibrio de las conformaciones de proteínas es un problema desafiante y de larga data, porque la distribución de probabilidad en el espacio conformacional depende del paisaje energético complejo y de alta dimensión (Paisaje energético). DiG puede generar estructuras de proteínas diversas y funcionalmente relevantes a partir de secuencias de aminoácidos rápidamente y a un costo significativamente menor que las simulaciones de dinámica molecular costosas e ineficientes o los métodos de muestreo de Monte Carlo.

DiG puede generar múltiples conformaciones a partir de la misma secuencia de proteína. Como se muestra en la Figura 2, DiG generó la estructura de la proteasa principal del virus SARS-CoV-2 y la comparó con los resultados previstos de las simulaciones de dinámica molecular y AlphaFold2. En 2D, el gráfico de contorno (representado por líneas) muestra los tres grupos muestreados por la simulación de dinámica molecular a gran escala, en la que DiG generó estructuras muy similares.

Figura 2: La estructura generada por DiG cubre la región principal distribuida en el espacio conformacional proyectado bidimensional de la simulación dinámica de estado estacionario a largo plazo de la proteasa principal del nuevo coronavirus

La Figura 3 compara las estructuras generadas por DiG con estructuras experimentales en cuatro proteínas, cada una de las cuales tiene dos conformaciones distinguibles correspondientes a estados funcionales únicos. Hay estados abiertos y cerrados para la proteína Adenilato quinasa en la parte superior izquierda, ambos bien muestreados por DiG. De manera similar, para el transportador de drogas superior derecho LmrP, DiG también generó estructuras correspondientes a los dos estados funcionales. En particular, el estado cerrado se determinó experimentalmente (ejemplo marrón debajo de la segunda columna, PDB ID 6t1z), mientras que AlphaFold2 predijo el otro estado de acuerdo con los datos experimentales. Para la quinasa B-Raf humana en la parte inferior izquierda de la Figura 3, las principales diferencias estructurales se encuentran en la región del bucle A y las hélices cercanas, que también están bien capturadas por DiG. Otro ejemplo interesante es la proteína de unión a D-ribosa (abajo a la derecha) con dos dominios separados que se pueden empaquetar en dos conformaciones diferentes. Si bien DiG generó perfectamente la conformación vertical, no pudo predecir la conformación torcida/inclinada. Sin embargo, DiG genera lo que parece ser una conformación intermedia. En conclusión, DiG demuestra la capacidad de generar diversas estructuras correspondientes a estados funcionalmente relevantes, lo que no se ha logrado en métodos anteriores centrados en la predicción de estructuras.

Figura 3: Rendimiento de DiG en la generación de múltiples conformaciones de proteínas. En 4 proteínas diferentes, DiG (cintas delgadas) produjo estructuras que eran muy consistentes con las estructuras determinadas experimentalmente (cilindros).

Otra aplicación de DiG es el muestreo de sistemas de catalizador-adsorbato, que es el corazón de la catálisis heterogénea. La identificación de sitios de adsorción activos y configuraciones estables de adsorbato es clave para comprender y diseñar catalizadores, pero este trabajo también es muy desafiante debido a las complejas interacciones moleculares de la superficie. Los métodos tradicionales, como los cálculos de la teoría funcional de la densidad (DFT) y las simulaciones de dinámica molecular, tienden a consumir mucho tiempo y ser costosos, especialmente para superficies grandes y complejas. DiG proporciona una solución rápida y precisa para predecir sitios y configuraciones de adsorción y sus probabilidades correspondientes en función de los descriptores de matriz y adsorbato. DiG también puede manejar diferentes tipos de adsorbatos, como átomos o moléculas individuales, y diferentes tipos de sustratos, como metales o aleaciones.

Usando DiG, los investigadores predijeron los sitios de adsorción de varios sistemas de adsorbato de catalizador y compararon los resultados predichos con las energías calculadas por DFT. Como se muestra en la Fig. 4, DiG puede encontrar todos los sitios de adsorción estables y generar configuraciones de adsorbato similares a los resultados de DFT con alta eficiencia y bajo costo. DiG también puede estimar las probabilidades de formación de diferentes configuraciones de adsorción, que concuerdan bien con las energías DFT.

Figura 4: Resultados de predicción de adsorción de átomos individuales de N y O en la superficie del catalizador. Diagrama de comparación de la distribución de probabilidad de adsorción de adsorbato en la superficie del catalizador predicha por el modelo y la energía de interacción calculada por química cuántica.

DiG también ha demostrado capacidades sin precedentes en tareas como el muestreo de proteínas y ligandos y el diseño inverso. Para obtener más información, consulte el texto original del artículo.

¿Cómo funciona DiG?

Similar al modelo del proceso de recocido simulado, DiG transforma distribuciones simples en distribuciones complejas utilizando el modelo Graphormer para predecir un proceso de difusión. Las distribuciones simples suelen ser distribuciones gaussianas estándar y las distribuciones complejas son distribuciones de equilibrio de estructuras moleculares. La transformación se realiza paso a paso, de modo que la dificultad de modelar distribuciones complejas se descompone en problemas más simples en cada paso.

Figura 5: Diseño y arquitectura troncal de DiG

DiG puede utilizar diferentes tipos de datos o información para la formación. DiG puede usar primero datos simulados, como trayectorias de dinámica molecular, para aprender la distribución. DiG también se puede entrenar directamente usando la función de energía del sistema molecular, ya que la distribución de equilibrio puede estar dada directamente por la función de energía a través de la teoría de la mecánica estadística. Dado que la predicción de la distribución del equilibrio del sistema molecular es diferente de las tareas tradicionales de IA, su generación de datos requiere cálculos de simulación a largo plazo y es difícil de obtener a gran escala. Aprender directamente de la función de energía es un medio para aliviar la dependencia estricta de los datos. .

DiG ha demostrado una buena capacidad de generalización similar a los métodos de predicción de estructuras basados ​​en el aprendizaje profundo en muchos sistemas moleculares. Esto se debe a que DiG hereda las ventajas de las arquitecturas avanzadas de aprendizaje profundo, como Graphormer, y las aplica a una tarea de predicción de distribución nueva y desafiante. Una vez entrenado, DiG puede generar estructuras moleculares invirtiendo el proceso de transformación, comenzando con una distribución simple y llamando a modelos de aprendizaje profundo en orden inverso. DiG también puede proporcionar estimaciones de probabilidad para cada estructura generada mediante el cálculo del cambio en la probabilidad durante la transición. Como puede verse, DiG es un marco flexible y general que puede manejar diferentes tipos de sistemas moleculares y descriptores.

Abrir más oportunidades nuevas para la investigación en ciencias moleculares en el futuro

DiG es un gran avance desde la predicción de una sola estructura hasta el modelado de conjuntos de distribuciones de equilibrio, sentando las bases para conectar microestructuras y macropropiedades bajo un marco de aprendizaje profundo. DiG utiliza técnicas de IA generativa para muestrear estructuras moleculares que se ajustan a distribuciones de equilibrio en una variedad de sistemas moleculares. Los investigadores demostraron la flexibilidad de DiG en diferentes clases de moléculas, incluidas las proteínas, y también demostraron que las estructuras individuales generadas de esta manera son consistentes con las leyes de las interacciones fisicoquímicas.

Sin embargo, aún se necesita más investigación para obtener predicciones más precisas de la distribución de equilibrio de cualquier sistema molecular. Microsoft Research espera que DiG pueda estimular más investigación e innovación en esta dirección, y espera ver resultados e impactos más emocionantes de DiG y otros métodos en la predicción de la distribución del equilibrio molecular en el futuro.

Enlaces relacionados:

[1] DiG 论文:Towards Predicting Equilibrium Distributions for Molecular Systems with Deep Learning (https://www.microsoft.com/en-us/research/publication/towards-predicting-equilibrium-distributions-for-molecular-systems-with -aprendizaje profundo/)

[2] Página de demostración (https://distributionalgraphormer.github.io)

[1] KDD Cup 2021 | El modelo Graphormer de Microsoft Research Asia encabezó la lista de pistas de predicción de gráficos OGB-LSC (https://www.msra.cn/zh-cn/news/features/ogb-lsc)

[2] Modelo campeón de Open Catalyst Challenge, biblioteca general de simulación molecular de IA Graphormer de código abierto. (https://www.msra.cn/zh-cn/news/features/graphormer)

Supongo que te gusta

Origin blog.csdn.net/helendemeng/article/details/131601093
Recomendado
Clasificación