Revisión del análisis de la sustitución del modelo DFT tradicional y el modelo DeepE3 basado en el modelo de aprendizaje profundo

El equipo de la comunidad de código abierto de China realizó su primera transmisión en vivo, contando la historia detrás de la comunidad de código abierto de China en nombre de compartir".

Autor: Yu Fan

fondo

El aprendizaje profundo ha logrado avances significativos en el campo de la química cuántica computacional en los últimos años. Los métodos de aprendizaje profundo existentes han demostrado su eficiencia y expresividad en la resolución de diversas tareas desafiantes de simulación de la mecánica cuántica con el aumento continuo de la potencia informática actual. El aprendizaje profundo y los primeros principios son cada vez más profundos. A partir de las leyes básicas de la física, las redes neuronales equivariantes se combinan en la escala de átomos y electrones para predecir valores en el campo cuántico, especialmente en el campo de DFT. Han nacido modelos de aprendizaje, como DeepE3 y QhNet. Estas redes se basan en redes equivariantes para predecir DFT Hamiltonianos. Este artículo presentará el origen de la teoría funcional de la densidad (DFT), el principio de la red neuronal equivariante y una red neuronal equivariante más general E3nn. Finalmente, describirá el modelo DeepHE3, un modelo propuesto por el equipo de la Universidad de Tsinghua basado en E3 y. otros Un modelo que cambia la red para predecir el DFT Hamiltoniano [1].

**1.** Teoría funcional de la densidad

La teoría del funcional de la densidad (DFT) es un método de la mecánica cuántica que estudia la estructura electrónica de sistemas multielectrónicos. Los sistemas multielectrónicos están representados por la densidad funcional de los electrones. La teoría del funcional de la densidad se utiliza ampliamente en física y química, especialmente para estudiar las propiedades de las moléculas y la materia condensada.

Antes de la teoría del funcional de densidad, la función de onda del sistema se calculaba resolviendo la ecuación de Schrödinger. Como ecuación básica de la mecánica cuántica, la ecuación de Schrödinger tiene la siguiente forma:

imagen

Ecuación 1. Ecuación de Schrödinger dependiente del tiempo

imagen

Ecuación 2. Ecuación de Schrödinger sin tiempo

Donde Ψ es la función de onda que describe el estado de las partículas microscópicas, E es la energía cinética y H es el hamiltoniano. El hamiltoniano describe la evolución del sistema cuántico y puede expresarse como la suma de la energía cinética y la energía potencial de las partículas. .

Para un sistema multipartícula compuesto por N electrones y M átomos, la ecuación de Schrödinger estacionaria correspondiente al hamiltoniano generalmente se puede escribir como:

imagen

Ecuación 3. Ecuación de Schrödinger

Esta función de onda tiene 3*(M + N) variables, por lo que es muy difícil de resolver.

La teoría del funcional de densidad reemplaza la función de onda con la densidad de electrones, que es un método para estudiar la estructura electrónica de sistemas multielectrónicos a través de la densidad de electrones. Entre ellos, la densidad es una función de coordenadas tridimensionales para describir la densidad de los electrones, y la función funcional se refiere a una función que transforma la densidad en energía E. La DFT toma la densidad de los electrones como una cantidad básica y expresa la energía como una función funcional de la densidad de los electrones. Dado que la densidad electrónica es sólo una función de las coordenadas espaciales, la dimensión del sistema multielectrónico se reduce directamente a 3, lo que simplifica el proceso de solución de la ecuación de Schrödinger.

En 1965, Walter Cohen y Shen Lujiu de la Universidad de California en San Diego propusieron la ecuación de Kohn-Sham. Como representante más común en la teoría funcional de la densidad, la ecuación KS convierte un sistema de múltiples partículas que interactúan en un sistema de una sola partícula que no interactúa y atribuye la interacción entre electrones al potencial de correlación de intercambio desconocido:

imagen

Ecuación 4. Ecuación KS[4]

El término potencial de correlación de intercambio se refiere a la diferencia de energía entre el sistema de múltiples partículas que interactúa y el sistema de múltiples partículas que no interactúa. Y se desconoce la forma funcional exacta de este término de energía, y solo se puede expresar como una función aproximada de la densidad electrónica, como la aproximación de densidad local (LDA). La densidad electrónica está determinada por la solución de la ecuación de función de onda de un solo electrón anterior, por lo que la forma específica de esta ecuación depende de su solución misma, que debe resolverse mediante iteración autoconsistente.

imagen

Figura 1. Proceso de cálculo aproximado[4]

Su complejidad computacional es O (N ^ 3), N es el número de electrones y todavía es difícil resolver sistemas grandes.

**2, ** Red equivalente

Cuando se utilizan redes neuronales para calcular algunas propiedades cuánticas, normalmente es necesario tener en cuenta la transformación de estas propiedades por la rotación de las partículas. Algunos valores escalares, como los valores de energía, las distancias entre partículas, etc., no se ven afectados por la rotación de las partículas. Para algunas características vectoriales multidimensionales, como fuerza, hamiltoniano, etc., los valores deben cambiarse en consecuencia de acuerdo con la rotación de las partículas, y este cambio debe ser consistente desde el principio hasta el final de la red. . Por lo tanto, se utilizan redes equivariantes para la mayoría de los modelos de primeros principios.

2.1 ¿Qué es la equivarianza?

Tome una función como ejemplo. Si la transformación que aplica a su entrada también se refleja en la salida, entonces la función es equivariante. f(g(x)) = g(f(x)).

2.2 ¿Qué es una red equilátera?

(1) La transformación de la entrada de la red debe asignarse simétricamente a los resultados internos y de salida.

(2) Por ejemplo, si existe una estructura atómica tridimensional, necesitamos utilizar una red neuronal para predecir sus diversas propiedades, como la energía potencial, el número de electrones y la dirección de la fuerza. Si rotamos la estructura atómica, su energía potencial y su número de electrones deberían permanecer iguales porque son escalares y los resultados de la dirección de su fuerza deberían cambiar en consecuencia porque son vectores multidimensionales; Este mapeo simétrico debe reflejarse en los intermediarios y resultados de la red. Por lo tanto, garantizar esta relación de mapeo requiere una red equivariante.

2.3 ¿Por qué deberíamos lograr la equivarianza?

Para una imagen bidimensional, como una imagen de un animal, para que el modelo sea simétrico, generalmente se realiza una mejora de datos. La imagen del animal se gira en 10 ángulos diferentes y se introduce en la red neuronal para que se entrene de manera diferente. Una imagen de un ángulo. Pero para un modelo tridimensional, como una estructura atómica, este tipo de mejora no es realista. Por lo general, si se va a ampliar un modelo tridimensional simple con datos, es necesario tener al menos 500 rotaciones de aumento de datos para hacerlo. abarcar adecuadamente una estructura atómica en diferentes características de ángulos. Si utiliza una red equivariante, solo necesita pasar una estructura.

imagen

Figura 2. Imagen animal bidimensional.

imagen

Figura 3. Diagrama del modelo tridimensional[5]

**3, ** E3nn: red neuronal de transformación espacial basada en el espacio euclidiano tridimensional

E3: El grupo de transformación espacial del espacio euclidiano tridimensional, que se puede descomponer en traslación, rotación (grupo ortogonal especial SO (3)) e inversión. La equivarianza de la traslación ya se satisface en la convolución, por lo que nos centramos en la rotación y la inversión. -> SO(3)×Z2=O(3)

Los conceptos principales en E3NN:

1. Grupo: Tipos de transformación del espacio, como rotación e inversión.

2. Representación: Define la representación de a qué grupo de transformación espacial (Grupo) pertenece el espacio vectorial.

3. Representación irreductible (irreps): Representación irreductible equivale a Representación irreductible. Cada irreps se puede marcar con (l,p), l=0,1,2,... es el orden, p=e,o es la paridad y la dimensión de la representación irreducible de orden l es 2l+1 . Por ejemplo, un vector tiene orden 1 (que representa una dimensión de 3) y uniformidad impar, por lo que se puede abreviar como 1o.

imagen

Figura 4. Introducción a irreps

Por ejemplo, en la siguiente figura, a1 – a9 representan 9 números reales respectivamente. Si a1 – a3 se consideran 3 escalares respectivamente, a4 – a6 se consideran un vector y a7 – a9 se consideran otro vector, entonces los irreps. de esta matriz es "3 × 0e + 2 × 1o" para expresar. Cuando necesitamos rotar esta matriz, necesitamos realizar diferentes transformaciones según el Grupo correspondiente en irreps. Para los tres escalares a1-a3, la rotación no afecta sus valores, por lo que se multiplican por 1. Y para a4 – El. Es necesario multiplicar dos vectores a6 y a7-a9 por la matriz de rotación correspondiente para obtener los valores correspondientes.

imagen

Figura 5. Ejemplo de matriz de rotación[5]

A continuación se explica cómo descomponer dos Irreps multiplicados (cómo descomponer un producto tensorial)

imagen

Ecuación 5. Descomposición del producto tensorial

Por ejemplo: 2 ⊗ 1 = 1 ⊕ 2 ⊕ 3, 2 ⊗ 2 = 0 ⊕ 1 ⊕ 2 ⊕ 3. Como se puede ver en este ejemplo, la razón por la que e3nn puede mantener la equivarianza es que determina de antemano las irrepeticiones de la entrada, la salida y los resultados intermedios de la red. Velar por que la transformación del Grupo se realice conforme a la correspondiente representación irreductible, evitando así confusiones.

**4、** DeephE3

Un marco general de aprendizaje profundo equivariante E{3} que predice hamiltonianos DFT a partir de estructuras atómicas {R} con órbitas de espín a través de redes neuronales. DeephE3 puede aprender a predecir predicciones electrónicas de sistemas materiales más grandes entrenando los resultados DFT de sistemas materiales pequeños. Este método es aplicable a varios sistemas de materiales, como el grafeno bicapa retorcido con ángulo mágico general o los materiales retorcidos de Van der Waals, y es varios órdenes de magnitud más económico que los cálculos directos de DFT.

La siguiente figura muestra la arquitectura de toda la red. Entre ellos, {Zi} representa el número atómico, |rij | representa la distancia entre átomos y se utiliza para construir un vector con orden igual a 0. ^rij representa la posición relativa entre átomos y el vector se utiliza para construir un vector con orden igual a 1, 2. {Zi} se pasa en el módulo de incrustación elemental (incrustación elemental) como el vértice inicial | rij | se pasa en la extensión gaussiana (sesgo gaussiano) como la característica de borde ^rij se pasa en la función armónica esférica; entre átomos Realice un mapeo para generar Y (^rij). La función armónica esférica Y^l asigna un vector tridimensional a un vector 2l + 1 dimensional, que representa el coeficiente cuando el vector de entrada se descompone en 2l + 1 esférico básico. Armónicos.

imagen

Figura 6. Estructura general de DeephE3[1]

Las características de vértice y borde generadas se actualizan L veces mediante bloques de actualización de vértice y actualización de borde. El bloque de actualización codifica la distancia entre átomos y la información relativa desconocida mediante convolución equivariante. El símbolo "⋅" representa la multiplicación de canales y || .

Luego utilice el método de paso de mensajes para actualizar los vectores de aristas y vértices obteniendo información sobre aristas adyacentes.

Los vectores de borde finales se pasan a la capa Wigner-Eckart para mostrar el hamiltoniano DFT. Si se ignora el acoplamiento de órbita de espín (SOC), el vector de salida de la red neuronal se convierte en un hamiltoniano a través de la capa de Wigner Eckart usando la regla 1 ⊕ 2 ⊕ 3 = 1 ⊗ 2. Si se incluye SOC, la salida consta de dos conjuntos de vectores reales que se combinan para formar un vector de valores complejos. Estos vectores se convierten en hamiltonianos DFT de órbita de espín usando otra regla: (1 ⊕ 2 ⊕ 3) ⊕ (0 ⊕ 1 ⊕ 2) ⊕ (1 ⊕ 2 ⊕ 3) ⊕ (2 ⊕ 3 ⊕ 4) = (1 ⊕ 1 /2) ⊕ (2 ⊕ 1/2 ). ⊕ se refiere a suma tensorial, ⊗ se refiere a producto tensorial.

imagen Figura 7. Capa de Wigner-Eckart[1]

**5, ** Resumen

Este artículo presenta la aplicación del aprendizaje profundo desde los primeros principios, así como los antecedentes físicos relacionados. Con una combinación más profunda de aprendizaje profundo y redes equivariantes, se pueden predecir cada vez más propiedades cuánticas que son difíciles de calcular con métodos tradicionales a través de redes neuronales, lo que ayuda mejor a las instituciones de investigación científica a investigar nuevos materiales, construir bases de datos de materiales, etc., para Lograr más innovaciones en aplicaciones.

referencias

[1] https://www.nature.com/articles/s41467-023-38468-8

[2] https://www.nature.com/articles/s43588-022-00265-6

[3] https://arxiv.org/abs/2207.09453

[4] https://www.bilibili.com/video/BV1vU4y1f7gQ/?spm_id_from=333.337.search-card.all.click

[5] https://www.youtube.com/watch?v=9rS8gtey_Ic

Revisión del análisis de la sustitución del modelo DFT tradicional y el modelo DeepE3 basado en el modelo de aprendizaje profundo

referencias

Supongo que te gusta