De alta resolução de imagem Coloração da usando Multi-Scale Neural remendo Síntese

resumo

Papel Fonte: CVPR 2017

Desvantagem de métodos anteriores: o método anterior e é baseado na informação de contexto semântico, e nos buracos de enchimento de maiores recursos mais avançados bem, a imagem pode ser capturada, mas devido a limitações de memória, e é difícil para treinar os elementos de rede, o processamento pode distinguir avaliaria imagem menor.

O método de ensaio apresentado: proposto, baseado no conteúdo e textura da imagem restrições combinadas para optimizar o remendo neural multi-escala de ligação métodos, que não só mantém a estrutura de contexto, e utilizando a rede profundidade classificadas mais semelhante característica intermediário camada Correlação corrigir ajustando e combinando um detalhes de alta frequência.

No Vantagem: pode lidar com imagens de grande resolução

arquitetura de rede:

Conjunto de dados: \ (IMAGEnet \) para o 16 VGG pré-treinamento, \ (Paris-Streetview-Datasets \)

Código: Mais rápido de alta-Res-Neural-Coloração

introdução

  • conclusão imagem :?
  • Existente \ (orifício de enchimento \) soluções para os problemas caem em duas categorias: A primeira categoria é dependente da síntese de textura, \ (orifício de enchimento \) para ocupar o cargo cercando a falta de textura, idéia comum é usar textura semelhante o teor de remendo de grosso a fino sintetizados suprimido. A segunda categoria é um método de dados orientada, utilizando os dados na base de dados maior para preencher a parte em falta.
categoria Em linha com o papel
A primeira categoria A referência [14], [13], [27], [26], [6], [12], [40], [41], [23], [24], [2]
Em que a referência [12], [41], a introdução de uma pluralidade de escalas e indicações, para encontrar uma melhor remendo jogo.
Referência [2] propôs algoritmo de busca vizinho mais próximo vai PatchMatch patch como uma rápida aproximada. Benefícios: boa de alta frequência detalhe propagação textura, mas eles não podem capturar uma imagem da estrutura ou semântica global.
A segunda categoria Assunção: a área é cercada por fundo semelhante pode ter conteúdo semelhante. Prós: Quando a quantidade de dados em tempo suficiente, uma elevada taxa de sucesso. Desvantagens: precisam se conectar ao banco de dados, o que limita a aplicação da cena.
  • Recentemente, a rede neural é introduzida a profundidade do padrão da textura e da conversão síntese de imagem.
  • Fonte de inspiração para este trabalho:
    • Phatak [32] encoderdecoder CNN (Codificador Contexto) usando ℓ2 e região perda contraditório combinar a eliminação de uma imagem directa de predição proposto. Contras: detalhes da textura do acordo não é bom, quando a entrada de maior imagem (imagem de alta resolução), treinamento duro perda do contraditório.
    • Li e varinha [28] para alcançar a conversão padrão de imagem, pela resposta neural para a camada intermédia (resposta neural) com o conteúdo da imagem semelhante, semelhante à resposta parcial e padrão de resposta parcial da camada da imagem é baixo convolução imagem é optimizado. Aqui resposta parcial (tipicamente 3 * 3) é representada por um pequeno remendos neurais. Este método provou que o padrão da imagem transmitida a partir do detalhe de alta frequência para a imagem conteúdo. Mas agora usar referência de conversão mais estilo [15] de matrizes gramas de respostas neurais.
  • O método proposto:
    • Proposto encoderdecoder combinação CNN (Contexto codificador) e a capacidade de prever a estrutura de manchas neurais imagem de alta frequência sintéticos com a capacidade real para implementar as tarefas de restauração de imagem.
    • E tarefa de conversão estilo, nós treinamos manchas neurais locais encoderdecoder CNN (Encoder Contexto) como uma restrição ao conteúdo global (restrição de conteúdo global), e com peças faltando áreas conhecidas de similaridade. (Usando rede de classificação pré-formados, remendo e do conteúdo da imagem, em resposta à eliminação da porção periférica da camada intermédia, em que a restrição de modelagem textura.) Estas duas restrições podem ser optimizadas pela memória limitada BFGS o algoritmo volta-propagação.
    • Para proporciona ainda um método de síntese de multi-escala remendo neural, assume-se que o tamanho da imagem é de 512 × 512, com uma deleção da porção intermédia de 256 × 256, em seguida, se criar uma estrutura piramidal de três, o número de passos é 2, cada passo é reduzida ao original metade da imagem (512 256 12 128256 864). Em seguida, executar um grosseiro-to-de grão fino tarefas de enchimento. Na parte inferior da rede de conteúdo de saída previsto é inicializado (1) de optimização da junta realizada em cada uma das dimensões, a fim de actualizar a porção ausente, e optimizado conjuntamente conjunto de amostragem para inicializar o conteúdo da restrição seguinte na escala (2). Em seguida, repita esta operação até a conclusão da otimização conjunta com a maior resolução.
  • A contribuição deste trabalho:
    • Convolução redes neurais foram estabelecidas modelo de restrição restrições de conteúdo textura global e local, propomos uma estrutura de otimização conjunta.
    • Outras introduz um multi-escala neual patcher patching algoritmo baseado em um quadro abrangente para otimização conjunta de imagens de alta-resolução.
    • Estudos têm mostrado que, extraiu-se a partir da rede neural, em que a camada intermédia pode ser utilizada para sintetizar o conteúdo da imagem de textura realista e , além disso, também ser utilizado para passar estilo.

trabalhos relacionados (dois inspiração)

Previsão estrutura usando profunda Networks Ao longo

  • geração de imagem (GAN) imagens convencionais de objectos diferentes são fixos sob condições região de imagem conhecidos, para prever faltando porções de conteúdo. Codificador-descodificador para a estrutura de rede restauração imagem proposto recentemente utilizando perda ℓ2 e perda contraditório (Contexto codificador) combinação função perda. No trabalho, usamos a previsão Contexto Encoder como uma rede de conteúdo global, usando a sua saída para inicializar multi-escala algoritmo de síntese remendo neural.

Transferência estilo

  • Referências [15, 16, 28, 3, 39, 22], o que demonstra o sucesso da transferência de estilo nervo. Estes métodos são, principalmente, através da geração de um "teor" uma imagem combinada a "estilo" de imagem e a outra imagem. Isso também indica que as características neurais (características neurais) textura fina e detalhes de alta freqüência na imagem gerada também é muito forte .

método

quadro global

3x5BBq.jpg

3x5GAf.jpg

  • Optimum imagem reparado função de perda otimização \ (X ^ ~ \) , a função de perda é composto por três itens, incluindo todo o item de conteúdo (o termo conteúdo holística), o item textura local (o termo textura local) e perda TV item (o termo de perda de tv).
    • O item de conteúdo inteira está ligada por uma estrutura global, a estrutura global e semântica que as imagens capturas. Primeira rede de formação de conteúdo, e usá-lo para inicializar os itens de conteúdo inteiros.
    • termo textura local é estatísticas textura locais da modelagem imagem de entrada. Calculado utilizando o pré-formados em redes IMAGEnet VGG-19.
  • modelo de restrição de conteúdo: Nós primeiro treinamento toda a rede de conteúdo \ (f \) (para o conteúdo holística de rede f), a rede de entrada é o centro de remoção de imagem da área retangular e preencher a cor média, e as imagens verdade terrestre \ (x_t \) é a imagem original o conteúdo do centro do retângulo. Uma vez que toda a rede de conteúdo é treinada, podemos usar a saída da rede \ (f (x_0) \) como o conteúdo inicial das restrições de otimização conjuntas.
  • item de textura local: a fim de garantir conteúdo semelhante e supressão de detalhes periféricos da parte em falta. Definido por manchas neural similaridade (manchas neurais tem sido aplicado com sucesso para o estilo da imagem capturada.) A fim de otimizar os itens textura locais, a imagem \ (X \) é a entrada para a rede VGG pré-treinados (rede textura local) e da rede em que o nível predeterminado, a região de eliminação do pequeno (tipicamente 3 × 3) bloco de bloqueio do nervo nervo fora em resposta à falta de semelhança. Na verdade, usamos a combinação de relu3_1 relu4_1 identidade camada neural é calculado. Usamos os BFGS memória limitada, minimizando a perda de conteúdo comum e textura a atualização iterativa \ (o X \) .
  • problemas multi-escala: restauração multi-escala, a fim de obter imagens de alta resolução para um determinado intervalo de uma perda de um grande imagens de alta-resolução, primeiro reduzir a imagem e, em seguida, usar para prever a rede de conteúdo para obter referências. Então, para um determinado conteúdo de referência, otimizamos em baixa resolução (isto é, conteúdo e restrições textura). Em seguida, os resultados de otimização remisturada e usados como otimização da multa escala inicializado.

Perda da função articular (The Joint Loss Function)

  • imagem de entrada \ (x_0 \) , a imagem de saída \ (X \) .
  • R representa uma imagem de saída \ (X \) da parte em falta, \ ([Phi] R ^ \) representa a área da porção em que VGG-19 rede mapa φ (x) eliminação correspondente.
  • h (·) indica a operação de extracto sub-imagens ou sub-características no mapa área rectangular, isto é, H (x, R) representa o conteúdo de cor na região x R, \ (H ([Phi] (X), R ^ [Phi]) \ ) representa \ (φ (x) \) em \ (R ^ φ \) área de conteúdo.
  • o conteúdo da rede restrição (rede de conteúdo) referido como \ (F \) , rede textura restrição (a rede textture) referido como \ (T \) .
  • A relação de redução imagem \ (I \) = 1,2, ....., N (N é o número de dimensionado para baixo), o ideal reconstrução (enchimento buraco) Resultados \ (X ^ ~ \) , pode ser resolvido pela seguinte problema de minimização de alcançar:
    • 3j49s0.jpg
    • Em que, \ (H (x_1, P & lt) = F (x_0) \) , \ (φ_t (X) \) representa a rede local de textura \ (T \) mapa característica camada intermédia (mapa de características) (ou mapa característica combinação), α é um reflexo da importância do peso correcto entre estes dois termos. α e β a 5e-6 para equilibrar a perda de cada tamanho.
    • Três de função perda explicação: \ (E_C \) , \ (E_T \) e \ (gama] \)
      • \ (E_c \) é modelado como o teor global dos constrangimentos , a punir os resultados da optimização para diferir entre as preditas (ou resultados da optimização da escala grosseira de rede conteúdo) antes \ (\) L_2 diferenças.

        • 3jjlwj.jpg
      • \ (E_T \) é modelado como um locais constrangimentos textura , a punir dentro diferença e do lado de fora da parte em falta da aparência texturada.
        • Em primeiro lugar, a rede \ (T \) seleccionar uma característica na camada (ou a combinação de camada de mobiliário) e extracto de mapa de características de \ (φ_t \) , para a região de deleção \ (P & lt \) cada \ (s x s x c \) tamanho do bloco de consulta local P, encontramos a mais parecida com a parte ausente dos blocos externos, e calcula a perda por uma distância média de seu bloco de consulta vizinho mais próximo.
        • 3vSzrT.jpg
        • \ (| R ^ φ | \ ) é a região \ (R ^ φ \) o número de blocos de amostras, \ (p_i \) é a posição \ (I \) é um centro nervoso parcial do bloco (remendo neural local), \ (nn (i) \) é calculado como:3xBvxU.jpg
          • \ (N (I) \) é \ (I \) e (I & lt \) \ recolha de posições sobrepostas adjacentes.
      • TV perda de objetivo é fazer o mais suave da imagem.

        • 3xDfoR.jpg

A rede de conteúdo

  • Uma maneira simples de aprender o conteúdo da rede previsão inicial (rede de predição de teor) de rede é treinado Regressão \ (M \) , usando a imagem de entrada \ (X \) resposta (tendo área desconhecido) \ (f (x) \) aproximada na região \ (P & lt \) verdade terrestre em \ (x_g \) .
  • Nós experimentar \ (L_1 \) Perda e perda do contraditório.
  • Para imagens de cada treinamento, \ (L_2 \) Loss é definido como:3xcu59.jpg
  • perda contraditório é definido como:3xc1v6.jpg
  • Nós usamos o mesmo método Encoder Contexto, \ (L_2 \) perda modo e combinação de perda de contraditório:3xgdwF.jpg
    • Tome 0.999 λ

A Rede Texture

  • Nossos experimentos IMAGEnet classificação de redes VGG-19 da rede pré-formados como uma textura (a rede textura), e usando \ (relu3-1 \) e \ (relu4-1 \) calcular textura camada a restrição local (o termo textura local). Calculado com duas camadas seria melhor do que os resultados dos cálculos de camada única.
  • A razão para usar redes VGG-19: VGG-19 da rede após o treinamento classificação semântica, assim caracterizado em que a camada intermédia tem uma invariância forte (distorção textura). Isso ajuda a inferir a parte que falta de uma reconstrução mais precisa.

experimentos

Visualizados e quantificados avaliação. Nós introduziu o primeiro conjunto de dados e, em seguida, em comparação com outros métodos para provar a eficácia deste método em alta resolução reparo imagem. Nesta parte final, apresenta-se uma aplicação no mundo real, nesta aplicação, podemos remover distúrbios da foto

  • DataSets: Paris StreetView e IMAGEnet (não use etiquetas).
    • paris streeview: contém 14.900 imagens e 100 imagem teste de formação.
    • IMAGEnet: formação, incluindo 1,26 milhões de fotos e 200 selecionados aleatoriamente a partir da imagem de verificação centralizada.
  • Configurações experimentais: Em caso de baixa resolução (128 x 128), o primeiro da nossa abordagem com vários métodos padrão são comparadas.
    • Primeiro, vamos adotar os resultados do \ (L_2 \) Perda de contexto codificador são comparados.
    • O segundo melhor resultado, vamos abordar o nosso codificador contexto fez uso perda de confronto foram comparados, é o uso de aprendizagem profunda para reparação de imagem no campo da tecnologia mais recente.
    • Finalmente, AdobePhotoshop em PatchMatch algoritmo para comparar os resultados de preenchimento sensível ao conteúdo. Comparamos demonstrar a eficácia da otimização conjunta do quadro proposto.
      • Em comparação com o método de referência, explicou o papel da eficácia global do algoritmo joint otimização e textura da rede nos Estados otimização e análise mais aprofundada do papel da separação da rede de conteúdo e textura em uma otimização de rede conjunta.
      • Por fim, apresentamos os resultados da restauração de imagens de alta resolução, e comparados com Content-Aware Fill e Contexto Encoder (ℓ2 e perda contraditório). Note-se que o contexto para o codificador, um resultado de alta resolução é obtido por amostragem directamente a saída a partir da baixa resolução obtida. Nosso método mostrou uma melhoria significativa na qualidade da visão.
  • comparações quantitativas
    • Baixa resolução (128 × 128) uma imagem em uma rua de Paris conjunto de dados, o nosso método, vamos comparar lado de referência. Os resultados da Tabela 1 mostram que a nossa abordagem recebeu o mais alto desempenho numérica. Atribuímos isso à natureza da nossa abordagem - pode-se inferir que a configuração correta da imagem quando o Fill Content-Aware falhar, em comparação com os resultados de Encoder Contexto, também pode ser sintetizado melhor detalhe de imagem (Fig. 4). Além disso, dada a tarefa de reparar o objetivo é gerar conteúdo realista, em vez de gerar a imagem original em exatamente o mesmo conteúdo, avaliação quantitativa podem não ser as medidas correctivas mais eficazes.3z91AS.jpg
  • Os efeitos do conteúdo e textura redes
    • Fizemos um estudo é remover as restrições de item de conteúdo (o termo restrição de conteúdo), somente o item textura em uma otimização conjunta. 8, sem o uso de itens de conteúdo para otimização guia, resultados de reparação estruturais são completamente errônea. Nós também ajustar os pesos relativos entre itens de conteúdo e texturas itens. Nós descobrimos que usando os pesos de restrição pesada mais o conteúdo, o resultado é mais de acordo com a rede de conteúdo previsão inicial, mas pode faltar o detalhe de alta frequência. Da mesma forma, os itens podem ser usados ​​mais resultados textura obtidos clara, mas não pode garantir que a imagem inteira é a estrutura correta (Fig. 6).
  • O efeito da perda contraditório
    • Analisamos o efeito do uso de perda de confronto na rede conteúdos de formação (as redes de conteúdo) em. Alguém poderia pensar que, sem o uso de perda de confronto, a rede de conteúdo ainda é capaz de prever a estrutura da imagem, otimizando conjuntamente a textura de calibração mais tarde. No entanto, encontramos a qualidade da inicialização da rede conteúdo dado muito importante para o resultado final. Quando a previsão inicial é vago (use somente "a perda de l2"), quando comparado ao mesmo tempo, usando a "perda l2" e "contra a perda de" formação de rede de conteúdo, o resultado final tornou-se mais turva (Figura 7).
  • De alta resolução de imagem inpainting
    • Mostramos na Fig. 5 e Fig. 10 a imagem de alta resolução (512 × 512) para reparar os resultados, eo Fill Content-Aware Encoder eo contexto ( \ (1_2 \) em comparação a perda + perda contraditório). Uma vez que o Codificador de Contexto só se aplica a imagem de 128x128, e quando a entrada for grande, usamos interpolação bilinear para as amostras directamente à saída 512 × 512 128 × 128 de. Na maioria dos resultados, que combina Multiscale método iterativo as vantagens de outros métodos, produzir um resultado com uma estrutura global coerente e o detalhe de alta frequência. Como mostrado, em comparação com o Fill Content-Aware, uma vantagem significativa da nossa abordagem é que podemos gerar uma nova textura, porque não usar diretamente no reparo convencional. No entanto, a desvantagem é que, com base na nossa implementação atual, nosso algoritmo leva cerca de 1 minuto, preenchido com 512 × 512 256 × 256 imagens buracos com Titan X GPU, esta percepção é muito mais lento do que o conteúdo preenchido.
  • Distrator Cenário Mundial-Real Remoção
    • Finalmente, nosso algoritmo pode ser facilmente estendido para lidar com a secção em falta de forma arbitrária. Em primeiro lugar, usar a parte faltando cercado por um retângulo para cobrir qualquer um a parte que falta mais uma vez preenchido com o valor médio de pixel. Depois de corte apropriado e enchendo o rectângulo é localizado no centro, a imagem como uma rede de conteúdo de entrada. Na otimização conjunta, as restrições de conteúdo (Content A
      restrição) é a saída da rede, o conteúdo de qualquer parte ausente inicializado. fora da região de textura à base de restrição da deleção parcial. A figura 11 ilustra vários exemplos de detecção e comparação com o algoritmo de enchimento conteúdo (nota, o contexto codificador (Contexto Codificador) não pode lidar explicitamente com qualquer parte em falta, de modo que não serão comparados com este).

Conclusão

A mais recente progresso na utilização de bloqueio do nervo sintético (síntese remendo neural) em termos de semântica reparar Nós apresentamos. Encontrado, rede de textura (a textura de rede) na produção muito forte detalhe de alta frequência, enquanto o conteúdo da rede (rede do conteúdo) tem uma estrutura semântica forte priori e global. Isso poderia ser útil para outras aplicações, como remoção de ruído, super-resolução, redirecionamento e vista interpolação / temporal. Quando a complexidade da cena, o nosso método vai apresentar descontinuidades e artefactos (FIG. 9). Além disso, a velocidade ainda é um gargalo do nosso algoritmo. Nosso objetivo é resolver esses problemas em trabalhos futuros.

Acho que você gosta

Origin www.cnblogs.com/wenshinlee/p/12444785.html
Recomendado
Clasificación