Aprendizaje profundo para resolver la serie cuatro de ecuaciones diferenciales: un método de solución PINN basado en la función de activación adaptativa - Problema inverso de la ecuación de Burger

A continuación, presentaré la red neuronal de conocimiento de física integrada (PINN) para resolver ecuaciones diferenciales. En primer lugar, se introduce el método básico de PINN y se utiliza el marco de solución de PINN basado en la función de activación adaptativa para resolver el problema inverso de la ecuación de Burger unidimensional con término de tiempo usando Pytorch.
Red neuronal integrada de conocimiento físico (PINN) Introducción y documentos relacionados
Aprendizaje profundo para resolver ecuaciones diferenciales Serie 1: Marco de solución de PINN (Poisson 1d)
Aprendizaje profundo para resolver ecuaciones diferenciales Serie 2: PINN para resolver problemas de reenvío de ecuaciones de hamburguesa
Aprendizaje profundo para resolver ecuaciones diferenciales Serie 3: PINN resuelve el problema inverso de la ecuación de la hamburguesa
Deep learning para resolver la ecuación diferencial serie IV: Basado en la función de activación adaptativa PINN resuelve el problema inverso de la ecuación de la hamburguesa Deep learning
para resolver la ecuación diferencial serie V: PINN resuelve el problema directo e inverso de la ecuación de Navier-Stokes

1. Introducción a PINN

Como una poderosa herramienta de procesamiento de información, la red neuronal se ha utilizado ampliamente en los campos de la visión por computadora, la biomedicina y la ingeniería de petróleo y gas, lo que ha desencadenado cambios tecnológicos en muchos campos. La red de aprendizaje profundo tiene una capacidad de aprendizaje muy fuerte, no solo puede descubrir leyes físicas, sino también resolver ecuaciones diferenciales parciales. En los últimos años, la solución de ecuaciones diferenciales parciales basadas en el aprendizaje profundo se ha convertido en un nuevo foco de investigación. La red neuronal informada por la física integrada (PINN) es una aplicación de máquinas científicas en el dominio numérico tradicional, que se puede utilizar para resolver varios problemas relacionados con ecuaciones diferenciales parciales (PDE), incluida la resolución de ecuaciones, inversión de parámetros, descubrimiento de modelos, control y optimizacion etc

2. Método PINN

La idea principal de PINN se muestra en la Figura 1, primero construya un resultado de salida como u ^ \hat{u}tuLa red neuronal de ^, que se usa como un modelo proxy para la solución PDE, y la información PDE se usa como una restricción, codificada en la función de pérdida de la red neuronal para el entrenamiento . La función de pérdida incluye principalmente cuatro partes: pérdida de estructura diferencial parcial (pérdida PDE), pérdida de condición de valor límite (pérdida BC), pérdida de condición de valor inicial (pérdida IC) y pérdida de condición de datos reales (pérdida de datos).
inserte la descripción de la imagen aquí

Figura 1: Diagrama esquemático de PINN

En particular, considere el siguiente problema PDE, donde la solución de la PDE u ( x ) u(x)u ( x )Ω ⊂ R d \Omega \subset \mathbb{R}^{d}OhRd definición, dondex = ( x 1 , … , xd ) \mathbf{x}=\left(x_{1}, \ldots, x_{d}\right)X=( X1,,Xre)
f ( x ; ∂ tu ∂ x 1 , … , ∂ tu ∂ xd ; ∂ 2 tu ∂ x 1 ∂ x 1 , … , ∂ 2 tu ∂ x 1 ∂ xd ) = 0 , x ∈ Ω f\left( \mathbf{x} ; \frac{\parcial u}{\parcial x_{1}}, \ldots, \frac{\parcial u}{\parcial x_{d}} ; \frac{\parcial^{2} u}{\parcial x_{1} \parcial x_{1}}, \ldots, \frac{\parcial^{2} u}{\parcial x_{1} \parcial x_{d}} \right)=0 , \quad \mathbf{x} \in \OmegaF( X ;x1 tu,,xre tu;x1x12 y,,x1xre2 y)=0 ,XΩ
Al mismo tiempo, satisfaga el siguiente límite
B ( u , x ) = 0 en ∂ Ω \mathcal{B}(u, \mathbf{x})=0 \quad \text { on } \quad \partial \OmegaB ( ,x )=0 en Ω

El proceso de solución de PINN incluye principalmente:

  • El primer paso es definir el modelo de red neuronal de la capa totalmente conectada de la capa D:
    N Θ : = LD ∘ σ ∘ LD − 1 ∘ σ ∘ ⋯ ∘ σ ∘ L 1 N_{\Theta}:=L_D \circ \ sigma \circ L_{D-1} \circ \sigma \circ \cdots \circ \sigma \circ L_1norteel:=LDpagLre - 1pagpagL1
    式中:
    L 1 ( x ) : = W 1 x + segundo 1 , W 1 ∈ R re 1 × re , segundo 1 ∈ R re 1 L yo ( x ) : = W ix + bi , W yo ∈ R di × di - 1 , bi ∈ R di , ∀ yo = 2 , 3 , ⋯ re - 1 , LD ( X ) : = WD X + segundo re , Wd ∈ RN × re re - 1 , segundo re ∈ RN . \begin{alineado} L_1(x) &:=W_1 x+b_1, \quad W_1 \in \mathbb{R}^{d_1 \times d}, b_1 \in \mathbb{R}^{d_1} \\ L_i (x) &:=W_i x+b_i, \quad W_i \in \mathbb{R}^{d_i \times d_{i-1}}, b_i \in \mathbb{R}^{d_i}, \forall i =2,3, \cdots D-1, \\ L_D(x) &:=W_D x+b_D, \quad W_D \in \mathbb{R}^{N \times d_{D-1}}, b_D \ en \mathbb{R}^N . \end{alineado}L1( X )Lyo( X )LD( x ): =W1X+b1,W1Rd1× re ,b1Rd1: =WyoX+byo,WyoRdyo× reyo 1,byoRdyo,yo=2 ,3 ,D1 ,: =WDX+bD,WDRN × rere - 1,bDRN. _
    y σ \sigmaσ es la función de activación,WWW ybbb son los parámetros de peso y sesgo.
  • El segundo paso, para medir la red neuronal u ^ \hat{u}tu^和约束之间的差异,考虑损失函数定义:
    L ( θ ) = wf LPDE ( θ ; T f ) + wi LIC ( θ ; T i ) + wb LBC ( θ , ; T b ) + wd LD ata ( θ , ; T datos ) \mathcal{L}\left(\boldsymbol{\theta}\right)=w_{f} \mathcal{L}_{PDE}\left(\boldsymbol{\theta}; \mathcal{ T}_{f}\right)+w_{i} \mathcal{L}_{IC}\left(\boldsymbol{\theta} ; \mathcal{T}_{i}\right)+w_{b} \mathcal{L}_{BC}\left(\boldsymbol{\theta},; \mathcal{T}_{b}\right)+w_{d} \mathcal{L}_{Datos}\left(\ boldsymbol{\theta},; \mathcal{T}_{datos}\right)L( yo )=wfLP D E( yo ;Tf)+wyoLyo c( yo ;Tyo)+wsegundoLB C( yo ,;Tsegundo)+wreLdatos _ _ _( yo ,;Tdatos _ _ _)
    donde:
    LPDE ( θ ; T f ) = 1 ∣ T f ∣ ∑ x ∈ T f ∥ f ( x ; ∂ tu ^ ∂ x 1 , … , ∂ tu ^ ∂ xd ; ∂ 2 tu ^ ∂ x 1 ∂ x 1 , … , ∂ 2 tu ^ ∂ X 1 ∂ xd ) ∥ 2 2 LIC ( θ ; T yo ) = 1 ∣ T yo ∣ ∑ X ∈ T yo ∥ tu ^ ( X ) − tu ( X ) ∥ 2 2 LBC ( θ ; T segundo ) = 1 ∣ T segundo ∣ ∑ x ∈ T segundo ∥ segundo ( tu ^ , x ) ∥ 2 2 LD ata ( θ ; T datos ) = 1 ∣ T datos ∣ ∑ x ∈ T datos ∥ tu ^ ( x ) − u ( x ) ∥ 2 2 \begin{alineado} \mathcal{L}_{PDE}\left(\boldsymbol{\theta} ; \mathcal{T}_{f}\right) &=\frac{1 }{\left|\mathcal{T}_{f}\right|} \sum_{\mathbf{x} \in \mathcal{T}_{f}}\left\|f\left(\mathbf{x } ; \frac{\parcial \hat{u}}{\parcial x_{1}}, \ldots, \frac{\parcial \hat{u}}{\parcial x_{d}} ; \frac{\parcial ^{2} \hat{u}}{\parcial x_{1} \parcial x_{1}}, \ldots, \frac{\parcial^{2} \hat{u}}{\parcial x_{1} \partial x_{d}} \right)\right\|_{2}^{2} \\ \mathcal{L}_{IC}\left(\boldsymbol{\theta};\mathcal{T}_{i}\right) &=\frac{1}{\left|\mathcal{T}_{i}\right|} \sum_{\mathbf{x}\in \mathcal{T }_{i}}\|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \\ \mathcal{L}_{BC} \left(\ballsymbol{\theta};\mathcal{T}_{b}\right) &=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\ mathbf{x} \in \mathcal{T}_{b}}\|\mathcal{B}(\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal {L}_{Datos}\left(\símbolo en negrita{\theta}; \mathcal{T}_{datos}\right) &=\frac{1}{\left|\mathcal{T}_{datos} \ right|} \sum_{\mathbf{x} \in \mathcal{T}_{datos}}\|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_ { 2}^{2} \end{alineado}=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\mathbf{x}\in \mathcal{T}_{b}}\|\mathcal{B} (\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal{L}_{Data}\left(\negrita{\theta}; \mathcal{T} _ {datos}\right) &=\frac{1}{\left|\mathcal{T}_{datos}\right|} \sum_{\mathbf{x}\in \mathcal{T}_{datos} } \|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \end{alineado}=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\mathbf{x}\in \mathcal{T}_{b}}\|\mathcal{B} (\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal{L}_{Data}\left(\negrita{\theta}; \mathcal{T} _ {datos}\right) &=\frac{1}{\left|\mathcal{T}_{datos}\right|} \sum_{\mathbf{x}\in \mathcal{T}_{datos} } \|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \end{alineado}LP D E( yo ;Tf)Lyo c( yo ;Tyo)LB C( yo ;Tsegundo)Ldatos _ _ _( yo ;Tdatos _ _ _)=Tf1xTfF( X ;x1tu^,,xretu^;x1x12tu^,,x1xre2tu^)22=Tyo1xTyotu^ (x)tu ( x ) 22=Tsegundo1xTsegundoB (tu^ ,X ) 22=Tdatos _ _ _1xTdatos _ _ _tu^ (x)tu ( x ) 22
    wf w_{f}wfcon w_{i}wyowb w_ {b}wsegundoy wd w_{d}wrees el peso V f \mathcal{T}_{f}TfT i \mathcal{T}_{i}TyoT b \mathcal{T}_{b}TsegundoT data \mathcal{T}_{data}Tdatos _ _ _Representa puntos residuales de PDE, valor inicial, valor límite y valor verdadero. Aquí T f ⊂ Ω \mathcal{T}_{f} \subset \OmegaTfΩ es un conjunto predefinido de puntos para medir la salida de la red neuronalu ^ \hat{u}tu^ Grado de coincidencia con PDE.
  • Finalmente, use el algoritmo de optimización de gradiente para minimizar la función de pérdida hasta que se encuentren los parámetros de red que cumplan con la precisión de la predicción .

Vale la pena señalar que para problemas inversos, es decir, algunos parámetros en la ecuación son desconocidos. Si solo se conocen la ecuación PDE y las condiciones de contorno, y se desconocen los parámetros PDE, el problema inverso es un problema indeterminado, por lo que se debe conocer otra información, como algunos puntos de observación uuel valor de ud . En este caso, el método PINN puede utilizar los parámetros de la ecuación como variables desconocidas y agregarlos al entrenador para su optimización.La función de pérdida incluye la pérdida de datos.

3. PINN basado en la función de activación adaptativa

Brown University Jagtap propuso PINN basado en la función de activación adaptativa en 19 años. Específicamente, se introduce un parámetro entrenable en la función de activación, dado que la topología de la función de pérdida involucrada en el proceso de optimización cambiará dinámicamente, este parámetro se optimizará durante el proceso de entrenamiento para lograr el mejor rendimiento de la red. En comparación con el PINN tradicional con una función de activación fija, el PINN basado en la función de activación adaptativa tiene una mejor capacidad de aprendizaje, lo que mejora en gran medida la velocidad de convergencia y la precisión de la solución, especialmente en el entrenamiento inicial.

  • Una red neuronal con una función de activación fija se representa de la siguiente manera:
    L k ( xk − 1 ) : = wkxk − 1 + bku Θ ( x ) = ( L k ∘ σ ∘ L k − 1 ∘ … ∘ σ ∘ L 1 ) ( x ) \begin{alineado} &\mathcal{L}_k\left(x^{k-1}\right):=w^kx^{k-1}+b^k \\ &u_{\Theta} (x) =\left(\mathcal{L}_k \circ \sigma \circ \mathcal{L}_{k-1} \circ \ldots \circ \sigma \circ \mathcal{L}_1\right)( x) \ final {alineado}Lk( Xk - 1 ): =wk xk 1+bktuel( X )=( LkpagLk - 1pagL1)( x )
    En la fórmula: use una función de activación fija.
  • La adquisición de redes neuronales basada en parámetros adaptativos agrega un parámetro antes de que la salida pase por la función de activación:
    σ ( a L k ( xk − 1 ) ) a ∗ = arg ⁡ min ⁡ a ∈ R + \ { 0 } ( J ( a ) ) \begin{alineado} &\sigma\left(a \mathcal{L}_k\left(x^{k-1}\right)\right) \\ &a^*=\underset{a \in \mathbb {R}^{+} \barra invertida\{0\}}{\arg \min }(J(a)) \end{alineado}pag( una Lk( Xk 1 ))a=un R+ \{0} __ar gminuto( J ( un ) )
    En la fórmula: variable parámetro a ∗ a^{*}a se agregará al optimizador de red neuronal y se optimizará con parámetros de peso de red neuronal durante el proceso de entrenamiento.

Jagtap AD, Kawaguchi K, Karniadakis G E. Las funciones de activación adaptativa aceleran la convergencia en redes neuronales profundas e informadas por la física [J]. Revista de Física Computacional, 2020, 404: 109136.

4. Definición de problema de resolución - problema inverso

ut + uux = vuxx , X ∈ [ − 1 , 1 ] , t > 0 tu ( X , 0 ) = − pecado ⁡ ( π X ) tu ( − 1 , t ) = tu ( 1 , t ) = 0 \begin {alineado} u_t+u u_x &=v u_{xx}, x \in[-1,1], t>0 \\ u(x, 0) &=-\sin (\pi x) \\ u( -1, t) &=u(1, t)=0 \end{alineado}tut+tu tu tuxtu ( x ,0 )tu ( -1 , _t )=tu _x x,X[ - 1 ,1 ] ,t>0=pecado ( π x )=tu ( 1 ,t )=0

En la fórmula: parámetro vvv es un parámetro desconocido, el valor real esv ∈ [ 0 , 0.1 / π ] v \in[0,0.1 / \pi]v[ 0 ,0.1 / π ] ._ _ _ La solución numérica se obtiene por transformación de Hopf-Cole, como se muestra en la Figura 2.
Requisitos de la tarea:

  • La tarea es conocer las condiciones de contorno y las ecuaciones diferenciales, pero los parámetros en las ecuaciones son desconocidos, y resolver u y los parámetros de la ecuación.
  • Este problema es un problema inverso típico, un problema de inversión de optimización de los parámetros de la ecuación.

    Por favor agregue una descripción de la imagen
Figura 2: Solución numérica de hamburguesa

5. Visualización de resultados

El proceso de entrenamiento y el diagrama de cambio de parámetros se muestran en la Figura 3. Se puede ver claramente que en la etapa inicial del entrenamiento, el PINN que usa la función de activación adaptativa puede descender más rápido y converger al valor exacto.

inserte la descripción de la imagen aquí

Figura 3: Diagrama de variación de los parámetros del problema del proceso de entrenamiento y error de entrenamiento

Los resultados de la predicción durante el entrenamiento se muestran en la Figura 4-6.

inserte la descripción de la imagen aquí

Figura 4: Gráfico de error de predicción

inserte la descripción de la imagen aquí

Figura 5: gráfico de predicción

inserte la descripción de la imagen aquí

Figura 6: Pronóstico de resultados en diferentes momentos

Supongo que te gusta

Origin blog.csdn.net/weixin_45521594/article/details/127781628
Recomendado
Clasificación