Resolva PDEs espaçotemporais com base em PhyCRNet

A equipe da comunidade de código aberto da China fez sua primeira transmissão ao vivo, contando a história por trás da comunidade de código aberto da China em nome do compartilhamento."

Autor: Yu Fan

fundo

Sistemas complexos de espaço-tempo modelados por equações diferenciais parciais são onipresentes em muitas disciplinas, como matemática aplicada, física, biologia, química e engenharia. Na maioria dos casos, não conseguimos obter soluções analíticas para EDPs usados para descrever esses sistemas físicos complexos, portanto métodos de solução numérica têm sido extensivamente estudados, incluindo: elementos finitos, diferenças finitas, análise isogeométrica (IGA) e outros métodos. Embora esses métodos numéricos tradicionais possam aproximar bem a solução exata da equação por meio de funções de base, ainda há uma enorme sobrecarga computacional na assimilação de dados e na resolução do problema inverso.

Nos últimos anos, vários métodos de aprendizagem profunda surgiram em um fluxo interminável para resolver problemas diretos e inversos de sistemas não lineares. A pesquisa sobre o uso de DNN para modelar sistemas físicos pode ser dividida nas duas categorias a seguir: redes contínuas e redes discretas. Um representante típico de redes contínuas são os PINNs: o resíduo do PDE é usado como uma restrição suave da rede neural, e uma camada totalmente conectada é usada para aproximar a solução da equação, e o modelo pode ser executado em pequena escala de dados ou até mesmo dados amostrados não rotulados. No entanto, os PINNs são frequentemente limitados a parametrizações de baixa dimensão e são esticados quando enfrentam sistemas PDE com gradientes acentuados e morfologias locais complexas. Recentemente, um pequeno número de estudos piloto descobriu que redes discretas têm melhor escalabilidade e velocidade de convergência mais rápida do que o aprendizado contínuo. Por exemplo, a CNN pode ser usada como um modelo proxy no domínio retangular para sistemas independentes de tempo. Para resolver equações diferenciais parciais de estado estacionário de forma geométrica e adaptativa por meio da transformação de coordenadas, para sistemas dependentes do tempo, a maioria dos métodos de solução de redes neurais ainda são baseados em malha e orientados a dados.

PhyCRNet[1], proposto pela equipe do professor Sun Hao da Escola de Inteligência Artificial Hillhouse da Universidade Renmin da China, em colaboração com a Northeastern University (EUA) e a Universidade de Notre Dame, é um método não supervisionado para resolver PDEs em domínios espaçotemporais multidimensionais por meio de conhecimento físico prévio e arquitetura de rede recursiva convolucional, que combina ConvLSTM (extração de características espaciais de baixa dimensão e evolução do tempo de aprendizagem), conexão residual global (mapeamento estrito de mudanças em soluções de equações no eixo do tempo) e diferença finita de alta ordem. a filtragem espaço-temporal (determinando a construção de uma função de perda residual A capacidade das derivadas PDE necessárias) torna-a uma solução básica quando enfrentamos problemas inversos e quando há dados esparsos e ruidosos.

1. Definição do problema

Considerando equações diferenciais parciais paramétricas multidimensionais não lineares, a forma geral é a seguinte:

foto

onde u(x, t) representa a solução da equação no domínio do tempo T e no domínio do espaço Ω, e F é um funcional não linear com parâmetro λ.

**2. ** Método do modelo

ConvLSTM

ConvLSTM é uma estrutura de aprendizado espaço-temporal sequência a sequência que se estende do LSTM e sua variante da arquitetura de previsão do codificador-decodificador LSTM (que tem a vantagem de modelar dependências de longo período que evoluem ao longo do tempo). Em essência, a unidade de memória é atualizada com as informações de entrada e de estado acessadas, e o acúmulo e a limpeza da memória são concluídos por meio de portas de controle projetadas de maneira inteligente. Com base nesta configuração, o problema de desaparecimento de gradiente de redes neurais recorrentes comuns (RNN) é aliviado. ConvLSTM herda a estrutura básica do LSTM (ou seja, unidades celulares e portões) para controlar o fluxo de informações e modifica a rede neural totalmente conectada (FC-NN) para levar em conta que a CNN tem melhores capacidades de representação de conexão espacial e executa operações de gate na CNN . Como um tipo especial de RNN, o LSTM pode ser usado como um método numérico implícito para resolver equações PDE dependentes do tempo. O diagrama de estrutura de uma única unidade ConvLSTM é o seguinte:

foto Figura 1: Célula ConvLSTM única no tempo t

A representação matemática da atualização de uma unidade ConvLSTM é a seguinte:

foto

Entre eles, * representa a operação de convolução, ⊙ representa o produto de Hadamard, W é o parâmetro de peso do filtro e b representa o vetor de polarização;

Aleatório de pixels

Pixel Shuffle é uma operação eficiente de convolução de subpixels que transforma uma imagem de baixa resolução (LR) em uma imagem de alta resolução (HR). Suponha que as dimensões de um tensor de recurso LR sejam (C Um tensor HR com dimensões (C, H xr, W xr). foto Figura 2: Camada Pixel Shuffle

A eficiência do Pixel Shuffle se reflete em: (1) aumentar apenas a resolução na última camada de convolução, o que pode evitar a necessidade de usar mais camadas de convolução para aumentar a imagem até a resolução alvo, como a deconvolução; Todas as camadas de extração de recursos antes da camada de upsampling, filtros menores podem ser usados para processar esses tensores de baixa resolução.

PhyCRNet

PhyCRNet consiste em módulos codificadores-decodificadores, conexões residuais, processos autorregressivos e um método diferencial baseado em filtro. O codificador contém três camadas convolucionais para aprender características latentes de baixa dimensão da variável de estado Ui em um determinado momento e deixá-las evoluir ao longo do tempo por meio do ConvLSTM. Como a transformação é realizada em variáveis de baixa dimensão, a sobrecarga de memória será reduzida de acordo. Além disso, inspirado no método de Euler direto, podemos adicionar uma conexão residual global entre a variável de entrada Ui e a variável de saída Ui+1, e o processo de aprendizagem de etapa única pode ser expresso como Ui+1 = Ui + δt x N [Ui; θ], onde N[·] representa o operador da rede neural treinado e δt é o intervalo de tempo unitário. Portanto, esta relação recursiva pode ser vista como um processo autoregressivo simples.

foto Figura 3: Diagrama de estrutura de rede PhyCRNet

Aqui U0 é a condição inicial, U1 a UT são as soluções discretas que precisam ser previstas pelo modelo e a evolução temporal da entrada à saída. Em comparação com os métodos numéricos tradicionais, o ConvLSTM pode usar um intervalo de tempo maior. Para o cálculo de cada termo diferencial, usamos um kernel de convolução fixo [1] para representar seus valores de diferença. No PhyCRNet, termos de diferença de segunda e quarta ordem são usados para calcular as derivadas de U em relação ao tempo e ao espaço. Para otimizar ainda mais o desempenho computacional, podemos pular a parte do codificador em um ciclo de tamanho T, exceto o primeiro momento de cada ciclo. O diagrama esquemático é o seguinte:

foto Figura 4: Diagrama de estrutura de rede do PhyCRNet

Restrições rígidas I/BC

Comparado com o método PINNs, que usa condições de contorno iniciais físicas como restrições suaves (seus resíduos são otimizados como parte da perda), PhyCRNet usa o método de codificação I/BC no modelo (as condições iniciais são usadas como entrada U0 do ConvLSTM, e as condições de contorno são codificadas por meio de preenchimento), para que as condições físicas não sejam mais uma restrição suave, melhorando assim a precisão e a velocidade de convergência do modelo. Para Dirichlet BC, os valores de limite constantes conhecidos podem ser preenchidos diretamente como preenchimento no domínio do espaço, enquanto para Neumann BC, uma camada de elementos fantasmas pode ser adicionada ao redor do domínio do espaço, seus valores são; aproximado por diferenças durante o processo de treinamento.

foto Figura 5: Ilustração de restrições rígidas nas condições de contorno

função de perda

Como I/BC foi rigidamente restringido no modelo, a função de perda só precisa incluir o termo residual do EDP. Tomando um sistema EDP bidimensional como exemplo, a função de perda pode ser expressa como:

foto

onde n e m representam a altura e largura da grade, T é o número total de passos de tempo e R (x, t; θ) é o resíduo do PDE:

foto

**3. ** Análise de resultados

Para avaliar o erro do modelo em todo o domínio, a raiz do erro quadrático médio cumulativo (a-RMSE) no tempo τ é calculada da seguinte forma:

foto

onde Nτ é o número de intervalos de tempo em [0, τ] e u*(x, t) é a solução de referência da equação.

Equação bidimensional de hambúrgueres

Considere um problema clássico em mecânica dos fluidos, dada a equação bidimensional de Burgers da seguinte forma:

foto

Selecionamos 4 pontos de tempo: treinamento (t = 1,0, 2,0) e extrapolação (t = 3,0, 4,0) para comparar a precisão da solução e as capacidades de extrapolação dos métodos PhyCRNet e PINN:

foto Figura 6: Resultados de treinamento e extrapolação de PhyCRNet versus PINNs para a equação bidimensional de Burgers

Equação λ-ω RD

Como segundo caso, considere um sistema λ-ω RD bidimensional (frequentemente usado para representar processos bioquímicos em múltiplas escalas):

foto

Entre elas, uev são duas variáveis de campo que satisfazem:

foto

λ e ω são duas funções com valor real:

foto

A solução de referência para um total de 801 intervalos de tempo na área [-10, 10] é gerada pelo método espectral após treinamento para 200 intervalos de tempo no período de tempo [0, 5], a solução de referência para [5, 10; ] A previsão é feita durante o período, e os resultados da previsão comparando PhyCRNet e PINN são os seguintes:

foto Figura 7: Resultados de treinamento e extrapolação PhyCRNet vs. PINNs para a equação λ-ω RD

A figura abaixo mostra as curvas de propagação de erros do PhyCRNet e PINNs durante o treinamento e extrapolação nos dois sistemas PDE mencionados acima. Pode-se ver claramente que o PhyCRNet tem melhor desempenho em ambos os estágios (especialmente no estágio de extrapolação).

foto Figura 8: Comparando a propagação de erros de PhyCRNet e PINNs

referências

[1] Ren P, Rao C, Liu Y, et al. PhyCRNet: Rede convolucional recorrente informada pela física para resolver PDEs espaçotemporais [J]. Métodos Computacionais em Mecânica Aplicada e Engenharia, 2022, 389: 114399.

[2] https://www.sciencedirect.com/science/article/abs/pii/S0045782521006514?via%3Dihub

Resolva PDEs espaçotemporais com base em PhyCRNet

referências

Acho que você gosta