PINN Aprendizaje profundo para resolver ecuaciones diferenciales Serie tres: Resolviendo el problema inverso de la ecuación de la hamburguesa

A continuación, presentaré la red neuronal de conocimiento de física integrada (PINN) para resolver ecuaciones diferenciales. En primer lugar, se introduce el método básico de PINN y, basándose en el marco de solución de PINN de Pytorch, se resuelve el problema inverso de la ecuación de Burger unidimensional con término de tiempo.

Red neuronal integrada de conocimiento físico (PINN) Introducción y artículos relacionados
Aprendizaje profundo para resolver ecuaciones diferenciales Serie 1: Marco de solución de PINN (Poisson 1d)
Aprendizaje profundo para resolver ecuaciones diferenciales Serie 2: PINN para resolver problemas de reenvío de ecuaciones de hamburguesa
Aprendizaje profundo para resolver ecuaciones diferenciales Serie 3: PINN resuelve el problema inverso de la ecuación de Burger
Aprendizaje profundo para resolver la ecuación diferencial Serie cuatro: Basado en la función de activación adaptativa PINN resuelve el problema inverso de la ecuación de Burger

1. Introducción a PINN

Como una poderosa herramienta de procesamiento de información, la red neuronal se ha utilizado ampliamente en los campos de la visión por computadora, la biomedicina y la ingeniería de petróleo y gas, lo que ha desencadenado cambios tecnológicos en muchos campos. La red de aprendizaje profundo tiene una capacidad de aprendizaje muy fuerte, no solo puede descubrir leyes físicas, sino también resolver ecuaciones diferenciales parciales. En los últimos años, la solución de ecuaciones diferenciales parciales basadas en el aprendizaje profundo se ha convertido en un nuevo foco de investigación. La red neuronal informada por la física integrada (PINN) es una aplicación de máquinas científicas en el dominio numérico tradicional, que se puede utilizar para resolver varios problemas relacionados con ecuaciones diferenciales parciales (PDE), incluida la resolución de ecuaciones, inversión de parámetros, descubrimiento de modelos, control y optimizacion etc

2. Método PINN

La idea principal de PINN se muestra en la Figura 1, primero construya un resultado de salida como u ^ \hat{u}tuLa red neuronal de ^, que se usa como un modelo proxy para la solución PDE, y la información PDE se usa como una restricción, codificada en la función de pérdida de la red neuronal para el entrenamiento . La función de pérdida incluye principalmente cuatro partes: pérdida de estructura diferencial parcial (pérdida PDE), pérdida de condición de valor límite (pérdida BC), pérdida de condición de valor inicial (pérdida IC) y pérdida de condición de datos reales (pérdida de datos).
inserte la descripción de la imagen aquí

Figura 1: Diagrama esquemático de PINN

En particular, considere el siguiente problema PDE, donde la solución de la PDE u ( x ) u(x)u ( x )Ω ⊂ R d \Omega \subset \mathbb{R}^{d}OhRd definición, dondex = ( x 1 , … , xd ) \mathbf{x}=\left(x_{1}, \ldots, x_{d}\right)X=( X1,,Xre)
f ( x ; ∂ tu ∂ x 1 , … , ∂ tu ∂ xd ; ∂ 2 tu ∂ x 1 ∂ x 1 , … , ∂ 2 tu ∂ x 1 ∂ xd ) = 0 , x ∈ Ω f\left( \mathbf{x} ; \frac{\parcial u}{\parcial x_{1}}, \ldots, \frac{\parcial u}{\parcial x_{d}} ; \frac{\parcial^{2} u}{\parcial x_{1} \parcial x_{1}}, \ldots, \frac{\parcial^{2} u}{\parcial x_{1} \parcial x_{d}} \right)=0 , \quad \mathbf{x} \in \OmegaF( X ;x1 tu,,xre tu;x1x12 y,,x1xre2 y)=0 ,XΩ
Al mismo tiempo, satisfaga el siguiente límite
B ( u , x ) = 0 en ∂ Ω \mathcal{B}(u, \mathbf{x})=0 \quad \text { on } \quad \partial \OmegaB ( ,x )=0 en Ω

El proceso de solución de PINN incluye principalmente:

  • El primer paso es definir el modelo de red neuronal de la capa totalmente conectada de la capa D:
    N Θ : = LD ∘ σ ∘ LD − 1 ∘ σ ∘ ⋯ ∘ σ ∘ L 1 N_{\Theta}:=L_D \circ \ sigma \circ L_{D-1} \circ \sigma \circ \cdots \circ \sigma \circ L_1norteel:=LDpagLre - 1pagpagL1
    式中:
    L 1 ( x ) : = W 1 x + segundo 1 , W 1 ∈ R re 1 × re , segundo 1 ∈ R re 1 L yo ( x ) : = W ix + bi , W yo ∈ R di × di - 1 , bi ∈ R di , ∀ yo = 2 , 3 , ⋯ re - 1 , LD ( X ) : = WD X + segundo re , Wd ∈ RN × re re - 1 , segundo re ∈ RN . \begin{alineado} L_1(x) &:=W_1 x+b_1, \quad W_1 \in \mathbb{R}^{d_1 \times d}, b_1 \in \mathbb{R}^{d_1} \\ L_i (x) &:=W_i x+b_i, \quad W_i \in \mathbb{R}^{d_i \times d_{i-1}}, b_i \in \mathbb{R}^{d_i}, \forall i =2,3, \cdots D-1, \\ L_D(x) &:=W_D x+b_D, \quad W_D \in \mathbb{R}^{N \times d_{D-1}}, b_D \ en \mathbb{R}^N . \end{alineado}L1( X )Lyo( X )LD( x ): =W1X+b1,W1Rd1× re ,b1Rd1: =WyoX+byo,WyoRdyo× reyo 1,byoRdyo,yo=2 ,3 ,D1 ,: =WDX+bD,WDRN × rere - 1,bDRN. _
    y σ \sigmaσ es la función de activación,WWW ybbb son los parámetros de peso y sesgo.
  • El segundo paso, para medir la red neuronal u ^ \hat{u}tu^和约束之间的差异,考虑损失函数定义:
    L ( θ ) = wf LPDE ( θ ; T f ) + wi LIC ( θ ; T i ) + wb LBC ( θ , ; T b ) + wd LD ata ( θ , ; T datos ) \mathcal{L}\left(\boldsymbol{\theta}\right)=w_{f} \mathcal{L}_{PDE}\left(\boldsymbol{\theta}; \mathcal{ T}_{f}\right)+w_{i} \mathcal{L}_{IC}\left(\boldsymbol{\theta} ; \mathcal{T}_{i}\right)+w_{b} \mathcal{L}_{BC}\left(\boldsymbol{\theta},; \mathcal{T}_{b}\right)+w_{d} \mathcal{L}_{Datos}\left(\ boldsymbol{\theta},; \mathcal{T}_{datos}\right)L( yo )=wfLP D E( yo ;Tf)+wyoLyo c( yo ;Tyo)+wsegundoLB C( yo ,;Tsegundo)+wreLdatos _ _ _( yo ,;Tdatos _ _ _)
    donde:
    LPDE ( θ ; T f ) = 1 ∣ T f ∣ ∑ x ∈ T f ∥ f ( x ; ∂ tu ^ ∂ x 1 , … , ∂ tu ^ ∂ xd ; ∂ 2 tu ^ ∂ x 1 ∂ x 1 , … , ∂ 2 tu ^ ∂ X 1 ∂ xd ) ∥ 2 2 LIC ( θ ; T yo ) = 1 ∣ T yo ∣ ∑ X ∈ T yo ∥ tu ^ ( X ) − tu ( X ) ∥ 2 2 LBC ( θ ; T segundo ) = 1 ∣ T segundo ∣ ∑ x ∈ T segundo ∥ segundo ( tu ^ , x ) ∥ 2 2 LD ata ( θ ; T datos ) = 1 ∣ T datos ∣ ∑ x ∈ T datos ∥ tu ^ ( x ) − u ( x ) ∥ 2 2 \begin{alineado} \mathcal{L}_{PDE}\left(\boldsymbol{\theta} ; \mathcal{T}_{f}\right) &=\frac{1 }{\left|\mathcal{T}_{f}\right|} \sum_{\mathbf{x} \in \mathcal{T}_{f}}\left\|f\left(\mathbf{x } ; \frac{\parcial \hat{u}}{\parcial x_{1}}, \ldots, \frac{\parcial \hat{u}}{\parcial x_{d}} ; \frac{\parcial ^{2} \hat{u}}{\parcial x_{1} \parcial x_{1}}, \ldots, \frac{\parcial^{2} \hat{u}}{\parcial x_{1} \partial x_{d}} \right)\right\|_{2}^{2} \\ \mathcal{L}_{IC}\left(\boldsymbol{\theta};\mathcal{T}_{i}\right) &=\frac{1}{\left|\mathcal{T}_{i}\right|} \sum_{\mathbf{x}\in \mathcal{T }_{i}}\|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \\ \mathcal{L}_{BC} \left(\ballsymbol{\theta};\mathcal{T}_{b}\right) &=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\ mathbf{x} \in \mathcal{T}_{b}}\|\mathcal{B}(\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal {L}_{Datos}\left(\símbolo en negrita{\theta}; \mathcal{T}_{datos}\right) &=\frac{1}{\left|\mathcal{T}_{datos} \ right|} \sum_{\mathbf{x} \in \mathcal{T}_{datos}}\|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_ { 2}^{2} \end{alineado}=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\mathbf{x}\in \mathcal{T}_{b}}\|\mathcal{B} (\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal{L}_{Data}\left(\negrita{\theta}; \mathcal{T} _ {datos}\right) &=\frac{1}{\left|\mathcal{T}_{datos}\right|} \sum_{\mathbf{x}\in \mathcal{T}_{datos} } \|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \end{alineado}=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\mathbf{x}\in \mathcal{T}_{b}}\|\mathcal{B} (\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal{L}_{Data}\left(\negrita{\theta}; \mathcal{T} _ {datos}\right) &=\frac{1}{\left|\mathcal{T}_{datos}\right|} \sum_{\mathbf{x}\in \mathcal{T}_{datos} } \|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \end{alineado}LP D E( yo ;Tf)Lyo c( yo ;Tyo)LB C( yo ;Tsegundo)Ldatos _ _ _( yo ;Tdatos _ _ _)=Tf1xTfF( X ;x1tu^,,xretu^;x1x12tu^,,x1xre2tu^)22=Tyo1xTyotu^ (x)tu ( x ) 22=Tsegundo1xTsegundoB (tu^ ,X ) 22=Tdatos _ _ _1xTdatos _ _ _tu^ (x)tu ( x ) 22
    wf w_{f}wfcon w_{i}wyowb w_ {b}wsegundoy wd w_{d}wrees el peso V f \mathcal{T}_{f}TfT i \mathcal{T}_{i}TyoT b \mathcal{T}_{b}TsegundoT data \mathcal{T}_{data}Tdatos _ _ _Representa puntos residuales de PDE, valor inicial, valor límite y valor verdadero. Aquí T f ⊂ Ω \mathcal{T}_{f} \subset \OmegaTfΩ es un conjunto predefinido de puntos para medir la salida de la red neuronalu ^ \hat{u}tu^ Grado de coincidencia con PDE.
  • Finalmente, use el algoritmo de optimización de gradiente para minimizar la función de pérdida hasta que se encuentren los parámetros de red que cumplan con la precisión de la predicción .

Vale la pena señalar que para problemas inversos, es decir, algunos parámetros en la ecuación son desconocidos. Si solo se conocen la ecuación PDE y las condiciones de contorno, y se desconocen los parámetros PDE, el problema inverso es un problema indeterminado, por lo que se debe conocer otra información, como algunos puntos de observación uuel valor de ud . En este caso, el método PINN puede utilizar los parámetros de la ecuación como variables desconocidas y agregarlos al entrenador para su optimización.La función de pérdida incluye la pérdida de datos.

3. Definición de problema de resolución - problema inverso

ut + uux = vuxx , X ∈ [ − 1 , 1 ] , t > 0 tu ( X , 0 ) = − pecado ⁡ ( π X ) tu ( − 1 , t ) = tu ( 1 , t ) = 0 \begin {alineado} u_t+u u_x &=v u_{xx}, x \in[-1,1], t>0 \\ u(x, 0) &=-\sin (\pi x) \\ u( -1, t) &=u(1, t)=0 \end{alineado}tut+tu tu tuxtu ( x ,0 )tu ( -1 , _t )=tu _x x,X[ - 1 ,1 ] ,t>0=pecado ( π x )=tu ( 1 ,t )=0

En la fórmula: parámetro vvv es un parámetro desconocido, el valor real esv ∈ [ 0 , 0.1 / π ] v \in[0,0.1 / \pi]v[ 0 ,0.1 / π ] ._ _ _ La solución numérica se obtiene por transformación de Hopf-Cole, como se muestra en la Figura 2.
Requisitos de la tarea:

  • La tarea es conocer las condiciones de contorno y las ecuaciones diferenciales, pero los parámetros en las ecuaciones son desconocidos, y resolver u y los parámetros de la ecuación.
  • Este problema es un problema inverso típico, un problema de inversión de optimización de los parámetros de la ecuación.

    Por favor agregue una descripción de la imagen
Figura 2: Solución numérica de hamburguesa

4. Visualización de resultados

El proceso de entrenamiento y el diagrama de cambio de parámetros se muestran en la Figura 3. Se puede ver claramente que en la etapa inicial del entrenamiento, el PINN que usa la función de activación adaptativa puede descender más rápido y converger al valor exacto.

inserte la descripción de la imagen aquí

Figura 3: Diagrama de variación de los parámetros del problema del proceso de entrenamiento y error de entrenamiento

Los resultados de la predicción durante el entrenamiento se muestran en la Figura 4-6.

inserte la descripción de la imagen aquí

Figura 4: Gráfico de error de predicción

inserte la descripción de la imagen aquí

Figura 5: gráfico de predicción

inserte la descripción de la imagen aquí

Figura 6: Pronóstico de resultados en diferentes momentos

Supongo que te gusta

Origin blog.csdn.net/weixin_45521594/article/details/127697873
Recomendado
Clasificación