(2020, Generalização de alta frequência) Componentes de alta frequência ajudam a explicar a generalização de redes neurais convolucionais

Componente de alta frequência ajuda a explicar a generalização de redes neurais convolucionais

Conta oficial: EDPJ

Índice

0. Resumo

1. Introdução

2. Trabalho relacionado

3. Componentes de alta frequência e generalização da CNN

3.1 CNN usa componentes de alta frequência

3.2 O trade-off entre robustez e precisão 

4. Repense os dados antes de repensar a generalização

4.1 Premissas 

4.2 Experiência

4.3 Problemas restantes 

5. Heurísticas de Treinamento

5.1 Comparação de diferentes heurísticas

5.2 Suposições sobre a normalização do lote

6. Ataque e defesa contraditórios

6.1 Suavidade do kernel e frequência da imagem

6.2 Modelos robustos têm núcleos suaves

6.3 O kernel de suavização melhora a robustez adversária 

7. Além da Classificação de Imagens

7.1 Degradação de desempenho do LFC

7.2 Melhoria de desempenho do LFC 

8. Discussão: O HFC é apenas ruído? 

9. Conclusão e Perspectivas

referência

S. Resumo

S.1 Ideia central

S.2 Metodologia de pesquisa

S.3 Análise

S.4 Heurística

S.5 Robustez e Convolução Suavidade do Núcleo


0. Resumo

Estudamos a relação entre o espectro de frequência de dados de imagem e o comportamento de generalização de redes neurais convolucionais (CNNs). Primeiro notamos a capacidade das CNNs de capturar componentes de imagens de alta frequência. Esses componentes de alta frequência são quase imperceptíveis para os humanos. As observações, portanto, levam a várias hipóteses relacionadas ao comportamento de generalização das CNNs, incluindo possíveis explicações para exemplos adversários, uma discussão sobre o trade-off entre robustez e precisão para CNNs e algumas evidências para entender a heurística de treinamento.

1. Introdução

O aprendizado profundo fez muitos avanços recentes na modelagem preditiva de várias tarefas, mas as pessoas ainda estão chocadas com o comportamento de generalização não intuitivo das redes neurais, como a capacidade de memorizar dados embaralhados por rótulos e emparelhar exemplos adversários.

Para explicar o comportamento de generalização das redes neurais, muitos avanços teóricos foram feitos gradualmente, incluindo o estudo das propriedades da descida do gradiente estocástico, diferentes medidas de complexidade, lacuna de generalização e mais perspectivas de diferentes modelos ou algoritmos.

Neste artigo, inspirados por entendimentos anteriores de que as redes neurais convolucionais (CNNs) podem aprender com sinais de desordem e de superfície, estudamos o comportamento de generalização de CNNs a partir de uma perspectiva de dados. Como [27], argumentamos que o comportamento de generalização não intuitiva das CNNs é um resultado direto de diferenças de percepção entre humanos e modelos (como mostrado na Figura 1): as CNNs podem visualizar dados em uma granularidade maior do que os humanos.

No entanto, ao contrário de [27], fornecemos uma interpretação altamente granular da percepção do modelo: as CNNs podem explorar componentes de imagem de alta frequência que são imperceptíveis para os humanos.

Por exemplo, a Figura 2 mostra os resultados de previsão para oito amostras de teste do conjunto de dados CIFAR10 e os resultados de previsão para os componentes correspondentes de alta frequência e baixa frequência. Para esses exemplos, os resultados da previsão são quase totalmente determinados pelo conteúdo de alta frequência da imagem, que é quase imperceptível para os humanos. Por outro lado, para os humanos, os componentes de baixa frequência parecem quase iguais à imagem original, mas são previstos pelo modelo como algo significativamente diferente. 

Inspirados pelas observações empíricas acima, investigamos ainda mais o comportamento de generalização das CNNs e tentamos explicar tais comportamentos por meio de respostas diferenciais ao espectro da imagem de entrada ( Observação 1 ). Nossas principais contribuições estão resumidas a seguir:

  • Lançamos luz sobre o compromisso existente entre precisão e robustez das CNNs, fornecendo um exemplo de como as CNNs exploram componentes de imagens de alta frequência para trocar precisão por robustez (Corolário 1). 
  • Usando o espectro de imagem como ferramenta, fornecemos hipóteses para explicar vários comportamentos de generalização de CNNs, especialmente a capacidade de memorizar rótulos para embaralhar dados.
  • Nosso método de defesa proposto pode ajudar a melhorar a robustez adversária das CNNs para ataques simples sem treinamento ou ajuste fino do modelo.

2. Trabalho relacionado

O tremendo sucesso do aprendizado profundo atraiu uma grande quantidade de trabalho teórico dedicado a explicar o mistério da generalização da CNN.

  • Desde que Zhang e outros demonstraram que a capacidade efetiva de várias arquiteturas de redes neurais bem-sucedidas é suficiente para lembrar rótulos aleatórios, tem-se visto um florescimento de muitas discussões sobre esse aparente "paradoxo".
  • Arpit et al demonstram que é improvável que a capacidade efetiva explique o desempenho de generalização de redes profundas treinadas com métodos baseados em gradiente, uma vez que os dados de treinamento determinam em grande parte a memória.
  • Demonstrado empiricamente por Kruger et al. ao mostrar o maior aumento nos autovalores Hessianos ao treinar em rótulos aleatórios em redes profundas.

O conceito de exemplos adversários surgiu como outra direção interessante relacionada ao comportamento de redes neurais. Nessa linha, os pesquisadores inventaram métodos poderosos como FGSM, PGD e muitos outros para enganar modelos, chamados de métodos de ataque. Para proteger os modelos de falsificação, outro grupo de pesquisadores propôs uma variedade de métodos (chamados de métodos de defesa). Estes são apenas alguns destaques da longa história de métodos de ataque e defesa propostos. Uma discussão detalhada pode ser encontrada na revisão geral.

No entanto, ao melhorar a robustez, esses métodos podem apresentar uma ligeira diminuição na precisão da previsão, o que leva a outro tópico de discussão sobre o trade-off entre robustez e precisão. Alguns resultados empíricos mostram que modelos precisos tendem a ser mais robustos em exemplos adversários gerados. Trabalhos adicionais argumentam que, embora o aumento da robustez se deva principalmente ao aumento da precisão, modelos mais precisos (por exemplo, VGG, ResNet) são na verdade menos robustos que o AlexNet.

3. Componentes de alta frequência e generalização da CNN

Primeiro configuramos a notação básica usada neste artigo: <x,y> denotam amostras de dados (imagens e rótulos correspondentes). f(·;θ) representa uma rede neural convolucional cujos parâmetros são denotados como θ. Usamos H para denotar o modelo humano, então f(·;H) denota como um humano classificará os dados. l(·,·) denota uma função de perda genérica (por exemplo, perda de entropia cruzada). α(·,·) representa a função que avalia a precisão da predição (para cada amostra, esta função produz 1,0 se a amostra for classificada corretamente, 0,0 caso contrário). d(·,·) representa uma função que avalia a distância entre dois vetores. F( ) denota a transformada de Fourier, assim, F^(−1) ( ) denota a transformada de Fourier inversa. Usamos z para denotar os componentes de frequência das amostras. Portanto, temos z = F(x) ex = F^(−1) (z).

Observe que a transformada de Fourier ou sua inversa pode introduzir números complexos. Neste artigo, simplesmente descartamos a parte imaginária do resultado F^(−1) ( ) para garantir que a imagem resultante possa ser alimentada na CNN como de costume.

3.1 CNN usa componentes de alta frequência

Decompomos os dados originais x = {x_l, x_h}, onde x_l e x_h denotam o componente de baixa frequência (abreviado como LFC ) e o componente de alta frequência (abreviado como HFC ) de x. Temos as seguintes quatro equações:

onde t( ; r) denota a função de limite que separa os componentes de baixa e alta frequência de z de acordo com o hiperparâmetro raio r.

Para definir formalmente t( ; r), primeiro consideramos uma imagem em tons de cinza (canal único) de tamanho n × n, com N valores possíveis de pixel (em outras palavras, x ∈ N^(n×n)), então temos z ∈ C^(n×n), onde C denota um número complexo. Usamos z(i, j) para indexar o valor de z na posição (i, j) e usamos c_i, c_j para denotar o centróide. Definimos formalmente a equação z_l, z_h = t(z; r) como: 

Neste artigo, d(·,·) em t(·;r) é considerado como distância euclidiana. Se x tiver múltiplos canais, a passagem opera em cada canal do pixel independentemente. 

Observação 1 . Assumindo ( suposição 1, A1 ) "apenas x_l é perceptível por humanos, mas x_l e x_h são perceptíveis por CNN", temos:

Mas quando a CNN é treinada com

Equivalente a

Uma CNN pode aprender a usar x_h para minimizar a perda. Portanto, o comportamento de generalização das CNNs não é intuitivo para os humanos.

Observe que "CNN pode aprender a explorar x_h" não é o mesmo que "overfits da CNN" porque x_h pode conter mais informações do que idiossincrasias específicas da amostra, e essas informações adicionais podem generalizar em conjuntos de treinamento, validação e teste. não pode percebê-lo.

Como a Hipótese A1 foi comprovada em alguns casos (por exemplo, na Fig. 2), acreditamos que a Observação 1  pode servir como uma das explicações para o comportamento de generalização das CNNs. Por exemplo, exemplos adversários podem ser gerados perturbando x_h; a capacidade das CNNs de reduzir o erro de treinamento a zero em dados embaralhados por rótulos pode ser vista como resultado da exploração de x_h e do superajuste de idiossincrasias específicas de amostras. Discutiremos mais nas seções a seguir. 

3.2 O trade-off entre robustez e precisão 

Continuamos a Observação 1 para discutir o trade-off entre robustez e precisão das CNNs para um dado θ da perspectiva da frequência da imagem. Primeiro formulamos a precisão de θ formalmente como:

A robustez adversária de θ é expressa como

onde ε é o limite superior de perturbação permissível.

Outra suposição ( A2 para abreviar ): Para o modelo θ, existe uma amostra <x,y> tal que:

Podemos expandir nosso argumento principal ( Observação 1 ) em uma declaração formal: 

Corolário 1 . Sob as hipóteses A1 e A2, existem amostras <x, y>, para qualquer medida de distância d( , ) e limite ε, desde que ε ≥ d(x, x_l), o modelo θ não pode ser preciso (pela Equação 1 1.0) e prever robustamente (1.0 pela Eq. 2).

A prova é uma consequência direta da discussão anterior e, portanto, é omitida. A hipótese A2 também pode ser verificada empiricamente (por exemplo, na Figura 2), então podemos afirmar com segurança que o Corolário 1 pode ser uma das explicações para o trade-off entre robustez e precisão das CNNs.

4. Repense os dados antes de repensar a generalização

4.1 Premissas 

Nosso primeiro objetivo é fornecer algumas explicações intuitivas para os resultados empíricos observados de que redes neurais podem facilmente ajustar dados embaralhados por rótulos. Embora não tenhamos dúvidas de que uma rede neural é capaz de memorizar dados devido à sua capacidade, surgem questões interessantes: "Se uma rede neural pode memorizar dados facilmente, por que ela se preocupa em aprender padrões generalizáveis ​​a partir dos dados em vez de memorizar tudo diretamente para reduzir a perda de treinamento?"

Dentro das ideias introduzidas na Observação 1  , nossa hipótese é a seguinte: Embora o resultado seja o mesmo da minimização das perdas de treinamento, o modelo considera diferentes níveis de recursos em dois casos:

  • No caso do rótulo original, o modelo focará primeiro no componente de baixa frequência (LFC) e, em seguida, focará gradualmente no componente de alta frequência (HFC) para obter maior precisão de treinamento.
  • No caso do embaralhamento de rótulos, como a associação entre LFC e rótulo é removida devido ao embaralhamento, o modelo deve memorizar imagens quando LFC e HFC são tratados igualmente.

4.2 Experiência

Montamos experimentos para testar nossas hipóteses. Usamos o ResNet-18 do conjunto de dados CIFAR10 como experimento base. A configuração comum que usaremos no restante deste artigo é executar experimentos por 100 épocas com o otimizador Adam, com a taxa de aprendizado definida como 10^(−4), o tamanho do lote definido como 100 e os pesos inicializados usando Xavier inicialização. Os pixels são todos normalizados para [0, 1]. Todos esses experimentos foram repetidos no MNIST, FashionMNIST e um subconjunto do ImageNet. Esses esforços são relatados no apêndice. Treinamos dois modelos, usando a configuração de rótulo natural e a configuração de rótulo aleatório, denotados M_natural e M_shuffle, respectivamente; M_shuffle requer 300 épocas para obter precisão de treinamento comparável. Para testar qual parte da informação é extraída pelo modelo, para qualquer x no conjunto de treinamento, geramos componentes de baixa frequência x_l, onde r é definido como 4, 8, 12, 16, respectivamente. Testamos como a precisão do treinamento nesses conjuntos de dados de baixa frequência mudou durante o treinamento.

Os resultados são plotados na Figura 3.

  • A primeira mensagem é que M_shuffle leva mais tempo para treinar do que M_natural para alcançar a mesma precisão de treinamento (300 épocas vs. 100 épocas), sugerindo que memorizar amostras é "antinatural" em comparação com aprender padrões generalizáveis ​​de comportamento.
  • Ao comparar as curvas para amostras de treinamento de baixa frequência, notamos que M_natural aprende mais padrões de baixa frequência do que M_shuffle (isto é, quando r é 4 ou 8).
  • Além disso, quando r = 4, M_shuffle dificilmente aprende qualquer LFC, enquanto por outro lado, mesmo na primeira época, quando r = 4, M_natural aprendeu cerca de 40% do LFC correto. Essa diferença mostra que enquanto M_natural prefere escolher LFC, M_shuffle não tem preferência entre LFC e HFC. 

Se um modelo pode utilizar vários conjuntos diferentes de sinais, por que M_natural prefere aprender um LFC que coincida com as preferências perceptivas humanas? Embora existam explicações de que as redes neurais tendem a favorecer recursos mais simples, especulamos que isso ocorre simplesmente porque, como o conjunto de dados é organizado e anotado por humanos, a combinação LFC-label é mais "comum" do que a combinação HFC-label: Usando LFC - A combinação de rótulos levará à queda mais acentuada na perda, especialmente nas fases iniciais do treinamento.

Para testar essa conjectura, repetimos o experimento de M_natural, mas usamos x_l ou x_h (normalizado para a escala de pixel padrão) em vez do conjunto de treinamento original e testamos o desempenho do modelo no conjunto de teste original. A Tabela 1 mostra que o LFC "generaliza" mais que o HFC. Portanto, não é surpreendente se um modelo escolher LFC primeiro, pois leva à queda mais acentuada na perda.

4.3 Problemas restantes 

Finalmente, gostaríamos de levantar a questão de que a coincidência entre as preferências de rede em LFC e as preferências percebidas por humanos pode ser um simples resultado do "viés de sobrevivência" inventado por muitas tecnologias à medida que sobem a escada do estado da arte. Em outras palavras, a evolução de quase 100 anos das redes neurais é como uma "seleção natural" da tecnologia. As ideias que sobrevivem podem ser perfeitas para o gosto humano, ou podem nem mesmo ser publicadas devido à má ascensão da escada.

 Uma questão interessante, no entanto, é quão bem essas técnicas de subir escadas se alinham com as preferências visuais humanas. Oferecemos para avaliar essas técnicas usando nossa ferramenta de frequência.

5. Heurísticas de Treinamento

Continuamos a reavaliar as heurísticas que ajudam a subir na escada de precisão de última geração. Avaliamos essas heurísticas para testar o desempenho da generalização para LFC e HFC. Muitas técnicas bem conhecidas na escada de precisão parecem fazer uso de HFC em maior ou menor grau.

5.1 Comparação de diferentes heurísticas

Testamos várias heurísticas examinando a precisão preditiva de LFC e HFC, escolhendo r durante o treinamento e plotando as curvas de treinamento.

Tamanho do lote : estudamos como a escolha do tamanho do lote afeta o comportamento de generalização. Traçamos os resultados na Figura 4.

  • Lotes menores parecem fazer um bom trabalho para melhorar a precisão do treinamento e do teste, enquanto lotes maiores parecem fazer um bom trabalho para fechar a lacuna de generalização (lacuna de desempenho de treinamento versus teste).
  • Além disso, a lacuna de generalização parece estar intimamente relacionada à tendência dos modelos em capturar o HFC: modelos treinados com lotes maiores são mais invariantes ao HFC e apresentam diferenças menores na precisão de treinamento e teste. A relação observada é intuitiva porque a menor lacuna de generalização é alcançada quando o modelo se comporta como um humano (já que é um humano anotando os dados).

As observações na Figura 4 também contribuem para a discussão de características “generalizáveis” na seção anterior. Intuitivamente, com lotes maiores, os recursos que podem levar à queda mais acentuada na perda são mais prováveis ​​de serem padrões "generalizáveis" dos dados, ou seja, LFC. 

Heurísticas : Também testamos como diferentes métodos de treinamento respondem a LFC e HFC, incluindo:

  • Dropout: Uma heurística para soltar pesos aleatoriamente durante o treinamento. Aplicamos dropout em camadas totalmente conectadas com p = 0,5.
  • Mix-up: Uma heurística para integrar amostras linearmente e seus rótulos durante o treinamento. Nós o aplicamos usando o hiperparâmetro padrão α = 0,5.
  • BatchNorm: Um método para executar a normalização em cada mini-lote de treinamento para acelerar o processo de treinamento de redes profundas. Isso nos permite usar taxas de aprendizado mais altas e reduzir o overfitting, semelhante ao abandono. Nós o aplicamos definindo a escala γ como 1 e o deslocamento β como 0.
  • Adversarial Training: Um método para aumentar os dados com exemplos adversários gerados durante o treinamento por um modelo de ameaça. É amplamente considerado como um dos métodos de robustez adversária (defesa) mais bem-sucedidos. Seguindo uma escolha popular, usamos PGD com ε = 8/255 (ε = 0,03) como modelo de ameaça.

Ilustramos os resultados na Figura 5, onde a primeira figura é o cenário original e então cada uma das quatro heurísticas é testada nas quatro figuras restantes. 

  • Em nossos experimentos, o Dropout se comportou aproximadamente como uma configuração normal.
  • Mix-up fornece precisão de previsão semelhante, no entanto, captura mais HFC, o que provavelmente não é surpreendente, pois o aprimoramento de mix-up não encoraja explicitamente nenhuma informação sobre LFC, e a melhoria de desempenho pode ser devido ao foco.
  • Adversarial Training se comporta principalmente como esperado: ele relata menor precisão de previsão, provavelmente devido a uma troca entre robustez e precisão. Ele também relata uma pequena lacuna de generalização, provavelmente como resultado da escolha do modo "generalizável", conforme evidenciado por sua invariância para HFC (por exemplo, r = 12 ou r = 16). No entanto, quando r = 4, o treinamento contraditório parece ser sensível ao HFC, que é ignorado até mesmo pela configuração vanilla.
  • O desempenho de BatchNorm é digno de nota: em comparação com a configuração padrão, BatchNorm seleciona mais informações em LFC e HFC, especialmente quando r = 4 e r = 8. Essa propensão do BatchNorm para capturar HFCs também está relacionada ao fato de que o BatchNorm incentiva contra a fragilidade.

Outros testes : Também testamos outras heurísticas ou métodos, mudando apenas ao longo de uma dimensão, permanecendo o mesmo que a configuração original na Seção 4.

Arquitetura do modelo: Testamos LeNet, AlexNet, VGG e ResNet. A arquitetura ResNet parece superar as invenções anteriores em vários níveis: relata melhor precisão de teste na configuração original, menor lacuna de generalização (a diferença entre treinamento e precisão de teste) e uma tendência mais fraca para capturar HFC .

Otimizadores: testamos SGD, ADAM, AdaGrad, AdaDelta e RMSprop. Notamos que o SGD parecia ser o único com clara tendência a capturar HFC, enquanto os demais eram idênticos em nossos experimentos.

5.2 Suposições sobre a normalização do lote

Com base nas observações, levantamos a hipótese de que um dos pontos fortes do BatchNorm é alinhar as diferenças de distribuição de diferentes sinais de predição por meio da normalização. Por exemplo, os HFCs geralmente mostram magnitudes menores que os LFCs, portanto, os modelos treinados sem o BatchNorm podem não detectar esses HFCs com tanta facilidade. Portanto, a maior velocidade de convergência também pode ser considerada como resultado direto da captura simultânea de diferentes sinais de predição.

Para testar essa hipótese, comparamos o desempenho de modelos treinados com e sem BatchNorm em dados LFC e plotamos os resultados na Figura 6.

Conforme mostrado na Figura 6, BatchNorm nem sempre ajuda a melhorar o desempenho preditivo quando o modelo é treinado usando apenas LFC, seja ele testado com os dados originais ou com os dados LFC correspondentes. Além disso, quanto menor o raio, menos útil é BatchNorm. Além disso, em nosso cenário, BatchNorm não generaliza tão bem quanto o cenário original, o que pode levantar dúvidas sobre as vantagens de BatchNorm. 

No entanto, BatchNorm ainda parece pelo menos melhorar a convergência da precisão do treinamento. Curiosamente, a aceleração é menor quando r = 4. Essa observação está ainda mais alinhada com nossa hipótese: se uma das vantagens do BatchNorm é incentivar o modelo a capturar diferentes sinais de predição, então o ganho de desempenho do BatchNorm é mais limitado quando r = 4 ao treinar o modelo com LFC.

6. Ataque e defesa contraditórios

Como se pode notar, nossas observações de HFCs podem estar diretamente ligadas ao fenômeno de "exemplos adversários": se as previsões dependem de HFCs, então as perturbações de HFCs mudarão significativamente a resposta do modelo, mas os humanos podem não ser capazes de observar isso. de perturbação leva ao comportamento não intuitivo da rede neural.

Esta seção é dedicada a estudar a relação entre a robustez contraditória e a tendência dos modelos de explorar o HFC.

6.1 Suavidade do kernel e frequência da imagem

Conforme afirmado no teorema da convolução, a operação de convolução de uma imagem é equivalente à multiplicação no domínio da frequência da imagem. Portanto, grosso modo, se um filtro tiver pesos desprezíveis na extremidade superior do domínio da frequência, ele ponderará o HFC de acordo. Isso pode ser verdade apenas para os kernels da primeira camada, uma vez que os kernels da camada superior não estão diretamente relacionados aos dados, portanto, o relacionamento é ambíguo.

Portanto, acreditamos que, para forçar o modelo a ignorar o HFC, pode-se considerar forçar o modelo a aprender kernels de convolução com pesos apenas insignificantes na extremidade superior do domínio da frequência.

Intuitivamente (de acordo com o conhecimento de processamento de sinal), se o núcleo de convolução for "suave", ou seja, não houver flutuações bruscas entre pesos adjacentes, o domínio de frequência correspondente verá sinais de alta frequência insignificantes. Esses links foram comprovados matematicamente, mas as relações exatas que eles provam estão além do escopo deste artigo.

6.2 Modelos robustos têm núcleos suaves

Para entender a conexão entre "suavidade" e robustez adversária, visualizamos na Figura 7 (a) e (b) o kernel da convolução.

Comparando a Fig. 7(a) e a Fig. 7(b), podemos ver que os kernels Madversarial tendem a exibir padrões mais suaves, o que pode ser observado pelos pesos adjacentes dos kernels M_adversarial tendendo a compartilhar a mesma cor. A visualização pode não ser muito clara, pois os kernels de convolução no ResNet são apenas [3 × 3], quando a primeira camada possui kernels de convolução de tamanho [5 × 5], a mensagem é transmitida com mais clareza no apêndice usando outras arquiteturas. .

6.3 O kernel de suavização melhora a robustez adversária 

O argumento intuitivo em 6.1 e os resultados empíricos em 6.2 levam diretamente à questão de saber se podemos melhorar a robustez adversária do modelo suavizando o núcleo de convolução da primeira camada.

Após a discussão, apresentamos um método extremamente simples que parece melhorar a robustez adversária contra FGSM e PGD. Para um kernel w, usamos i e j para denotar seus índices de coluna e linha, então w_i,j denotam o valor da linha i e da coluna j. Se usarmos N(i, j) para denotar o conjunto de vizinhos espaciais de (i, j), nossa abordagem é simples:

onde ρ é um hiperparâmetro do nosso método. Fixamos N(i, j) para ter oito vizinhos. Se (i, j) estiver na borda, simplesmente copiamos os valores na borda para gerar valores fora dos limites.

Em outras palavras, tentamos suavizar o kernel simplesmente reduzindo diferenças adjacentes misturando valores adjacentes. Este método dificilmente tem carga computacional, mas parece melhorar a robustez adversária de M_natural e M_adversarial contra FGSM e PGD, mesmo quando M_adversarial é treinado com PGD como modelo de ameaça. 

Na Fig. 7, aplicamos o kernel de convolução com nosso método às visualizações M_natural e M_adversarial em ρ = 1,0, denotadas como M_natural (ρ = 1,0) e M_adversarial (ρ = 1,0), respectivamente. Como mostra a visualização, os kernels resultantes tendem a mostrar padrões significativamente mais suaves.

Testamos a robustez do modelo suavizado pelo nosso método contra FGSM e PGD, escolhendo diferentes ε com uma perturbação máxima de 1,0. Como mostra a tabela 2,

  • Ao aplicar nosso método de suavização, a precisão limpa cai diretamente, mas a robustez adversária melhora. Em particular, nosso método ajuda quando as perturbações permitidas são relativamente grandes. Por exemplo, quando ε = 0,09 (cerca de 23/255), M_natural (ρ = 1,0) supera até mesmo M_adversarial.
  • Em geral, nosso método pode facilmente melhorar a robustez adversária de M_natural, mas só pode melhorar M_adversarial quando ε é grande, o que pode ser porque M_adversarial usa PGD (ε = 0,03) como uma ameaça O modelo é treinado. 

7. Além da Classificação de Imagens

Nosso objetivo não é apenas explorar tarefas de classificação de imagens. Investigamos tarefas de detecção de objetos. Usamos RetinaNet e ResNet50 + FPN como backbone. Treinamos o modelo usando o conjunto de treinamento de detecção COCO e realizamos inferência em seu conjunto de validação de 5.000 imagens, obtendo uma Precisão Média Média (MAP) de 35,6%.

Em seguida, escolhemos r = 128 e mapeamos a imagem para x_l e x_h e testamos com o mesmo modelo, obtendo 27,5% MAP para LFC e 10,7% MAP para HFC. A queda de desempenho de 35,6% para 27,5% nos intrigou, então investigamos mais a fundo se a mesma queda deveria ser esperada em humanos.

7.1 Degradação de desempenho do LFC

A queda no desempenho de x para x_l pode ser esperada, pois x_l pode não ter informações ricas da imagem original quando o HFC é descartado. Em particular, ao contrário da classificação de imagens, o HFC pode desempenhar um papel importante na representação de certos objetos, especialmente os menores.

A Figura 8 ilustra alguns exemplos onde o reconhecimento de alguns objetos é pior quando a imagem de entrada é substituída por sua contraparte de baixa frequência. Essa diferença pode ser esperada, pois as imagens de baixa frequência tendem a ficar embaçadas e alguns objetos podem não ser visíveis aos humanos. 

7.2 Melhoria de desempenho do LFC 

No entanto, as diferenças tornam-se interessantes quando examinamos a diferença de desempenho na direção oposta. Identificamos 1684 imagens, para cada uma dessas imagens alguns objetos foram melhor reconhecidos (alta pontuação MAP) em comparação com a imagem original.

Os resultados são mostrados na Figura 9. Parece não haver nenhuma razão óbvia para que esses objetos sejam melhor identificados em imagens de baixa frequência quando inspecionados por humanos. Essas observações fortalecem nosso argumento de que diferenças perceptivas entre CNNs e humanos também existem em tarefas de visão computacional mais avançadas além da classificação de imagens.

8. Discussão: O HFC é apenas ruído? 

Para responder a essa pergunta, tentamos outro método de redução de ruído de imagem comumente usado: decomposição de valor singular truncado (SVD). Decompomos a imagem e separamos a imagem em uma imagem reconstruída com valores singulares dominantes e uma imagem reconstruída com valores singulares posteriores. Com essa configuração, encontramos muito menos imagens que suportam o fenômeno da Figura 2. Nossas observações mostram que o HFC explorado pelas CNNs não é apenas um "ruído" aleatório.

9. Conclusão e Perspectivas

Estudamos como o espectro da imagem afeta o comportamento de generalização das CNNs, levando a várias explicações interessantes para o comportamento de generalização das redes neurais sob uma nova perspectiva: existem múltiplos sinais nos dados, mas nem todos correspondem à preferência da visão humana. Como este artigo cobre muitos tópicos de forma abrangente, reiteramos brevemente as principais lições aprendidas:

  • CNNs podem capturar HFCs que são inconsistentes com as preferências visuais humanas (§3), levando a generalizações misteriosas, como o paradoxo de aprender a rotular dados aleatórios (§4) e fragilidade contraditória (§6).
  • Heurísticas de aprimoramento de precisão, como Mix-up e BatchNorm, podem incentivar a captura de HFC (§5). Devido ao compromisso entre precisão e robustez (§3), podemos ter que reconsiderar seu valor.
  • Modelos adversários tendem a ter núcleos suaves, o inverso nem sempre é verdadeiro (§6).
  • Fenômenos semelhantes foram observados no contexto da detecção de objetos (§7), mas mais conclusões ainda precisam ser tiradas.

No futuro, esperamos que nosso trabalho sirva como um chamado para uma era futura de pesquisa em visão computacional, onde o estado da arte é menos importante do que pensamos.

  • Um único número em uma tabela de classificação, embora possa impulsionar significativamente a pesquisa em uma direção, não é um reflexo confiável do acordo entre modelos e humanos, o que é sem dúvida o mais importante.
  • Esperamos que nosso trabalho leve a um novo cenário de teste em que o desempenho de contrapartes de baixa frequência precise ser relatado juntamente com o desempenho de imagens brutas.
  • Levar em consideração vieses indutivos explícitos em como os humanos percebem os dados pode desempenhar um papel importante no futuro. Em particular, a literatura da neurociência mostra que os humanos tendem a confiar em sinais de baixa frequência para reconhecer objetos, o que pode inspirar o desenvolvimento de métodos futuros.

referência

Wang H, Wu X, Huang Z, e outros. Componente de alta frequência ajuda a explicar a generalização de redes neurais convolucionais 2020: 8684-8694.

[27] Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Logan Engstrom, Brandon Tran e Aleksander Madry. Exemplos adversários não são bugs, são recursos. arXiv preprint arXiv:1905.02175, 2019.

S. Resumo

S.1 Ideia central

Neste artigo, estudamos a relação entre o espectro da imagem e a capacidade de generalização das CNNs. Os autores argumentam que o comportamento de generalização não intuitiva das CNNs é um resultado direto das diferenças de percepção entre humanos e modelos: as CNNs podem capturar componentes de alta frequência que os humanos não conseguem perceber.

S.2 Metodologia de pesquisa

Usando uma combinação de transformada de Fourier e filtro, o componente de baixa frequência (LFC) e o componente de alta frequência (HFC) da imagem são obtidos. Em seguida, os componentes são reconstruídos usando a transformada de Fourier inversa, e essas imagens reconstruídas são usadas como um conjunto de teste para verificar a precisão do modelo.

Observe que a transformada de Fourier ou sua inversa pode introduzir números complexos. Neste artigo, a parte imaginária do resultado da transformada inversa de Fourier é simplesmente descartada para garantir que a imagem resultante possa ser alimentada na CNN como de costume.

S.3 Análise

Estudos mostraram que as CNNs preferem aprender LFCs que se alinham com as preferências perceptivas humanas. Embora existam explicações de que as redes neurais tendem a favorecer recursos mais simples, os autores especulam que isso ocorre porque, como os conjuntos de dados são organizados e anotados por humanos, as combinações de rótulos de baixa frequência são mais "comuns" do que as combinações de rótulos de alta frequência em o conjunto de dados.

Uma passagem com a qual concordo neste artigo "Finalmente, gostaríamos de fazer a pergunta: a coincidência entre as preferências de rede no LFC e as preferências perceptivas humanas pode ser um simples "viés de sobrevivência" inventado por muitas tecnologias no processo de escalar o estado- escada de última geração. O resultado. Em outras palavras, a evolução de quase 100 anos das redes neurais tem sido como uma "seleção natural" da tecnologia. As ideias que sobrevivem podem simplesmente atender às preferências humanas ou podem nem mesmo ser publicado devido à dificuldade de subir escadas."

S.4 Heurística

Os autores estudam o efeito de diferentes heurísticas no desempenho da generalização. Apenas dois que afetam significativamente estão listados aqui.

Tamanho do lote . Lotes maiores têm lacunas de generalização menores e, neste momento, o modelo não aprende muitos componentes de alta frequência. A relação observada é intuitiva, uma vez que a menor lacuna de generalização é alcançada quando o modelo se comporta como um humano (os humanos anotam os dados e os humanos não podem observar os componentes de alta frequência).

Lote Norma . Com BatchNorm, o modelo pode utilizar mais componentes de alta frequência. Um dos pontos fortes do BatchNorm é a normalização para alinhar as diferenças de distribuição de diferentes sinais de previsão. Por exemplo, os HFCs geralmente mostram magnitudes menores que os LFCs, portanto, os modelos treinados sem o BatchNorm podem não detectar esses HFCs com tanta facilidade.

S.5 Robustez e Convolução Suavidade do Núcleo

Modelos robustos tendem a ter núcleos de convolução suaves. Se o modelo prediz por componentes de alta frequência, uma pequena perturbação nos componentes de alta frequência pode ter um grande impacto nos resultados do modelo.

Se o núcleo de convolução for "suave", ou seja, não houver flutuações bruscas entre pesos adjacentes, o domínio de frequência correspondente verá sinais de alta frequência insignificantes.

Usar um kernel de convolução suave, embora afete a precisão do modelo, pode melhorar a robustez.

Acho que você gosta

Origin blog.csdn.net/qq_44681809/article/details/130908329
Recomendado
Clasificación