A Huawei está começando a fazer grandes movimentos novamente? CV Nova Arquitetura: VanillaNet: o Poder do Minimalismo no Aprendizado Profundo Notas de Leitura de Artigo

1. Resumo
2. Introdução
3. Estrutura neural de uma única baunilha
4. Treinamento VanillaNet
- 4.1 Estratégia de treinamento profundo
- 4.2 Função de ativação informada da série
5. Experimente
6. Conclusão
Apêndice A: Estrutura da rede
Apêndice B: Detalhes do treinamento

escreva na frente

Na conferência VALSE há dois dias, o artigo da Huawei me chocou. Para ser sincero, o desempenho foi um pouco explosivo. Depois de olhar a tabela no Github, o número de parâmetros assusta à medida que o número de camadas aumenta, mas a velocidade de inferência é muito maior que os modelos anteriores.

Insira a descrição da imagem aqui

Endereço do artigo: VanillaNet: o poder do minimalismo na aprendizagem profunda
Endereço do código: https://github.com/huawei-noah/VanillaNet
Endereço do modelo de pré-treinamento: https://gitee.com/mindspore/models/tree/master/research/cv/vanillanet
Envio estimado: uma conferência importante em 2024
Interpretação de outros artigos do WeChat: A rede minimalista Noah da Huawei atinge 83% de precisão com 13 camadas (código-fonte anexado)
Ps: Uma postagem no blog lendo notas todas as semanas durante 23 anos e mais informações úteis na página inicial . Bem-vindo a me seguir. Aguardo sua participação nos 5.000 fãs ~

1. Resumo

Olhando todo o Resumo, não há conteúdo específico, ou seja, o VanillaNet proposto neste artigo pode utilizar ResNet com gancho de esquerda, Swim-Transformer com gancho de direita, etc. O principal motivo é evitar a introdução de mecanismos ultraprofundos, de atalhos e de autoatenção, e não há funções de ativação complexas.

2. Introdução

O primeiro parágrafo fala brevemente sobre o desenvolvimento e o papel da IA, e o segundo parágrafo começa com a introdução do AlexNet e o acompanhamento do ResNet, mostrando que este modelo está se tornando cada vez mais complexo em design, mas ao mesmo tempo seu o desempenho está cada vez melhor. A terceira seção é a casa do Transformer, ainda enfatizando a profundidade do modelo. O quarto parágrafo é uma transição do anterior para o seguinte, indicando que estruturas de modelo mais profundas e complexas são difíceis de implementar. O quinto parágrafo mostra o problema: redes planas sofrerão com o problema do gradiente de desaparecimento, e o desempenho de algumas redes profundas excede em muito o AlexNet e VGG anteriores, então poucas pessoas prestam atenção ao design da estrutura do modelo.
O sexto parágrafo apresenta o tópico. Este artigo propõe VanillaNet. A estrutura do modelo é simples: as operações de ultraprofundidade, atalhos e operações de autoatenção do modelo são removidas. Assim, é proposta uma estratégia de treinamento para eliminar gradualmente as camadas não lineares para manter a velocidade de inferência. A fim de aumentar a não linearidade da rede, é proposta uma função de ativação baseada em série, que é muito mais eficaz do que outros modelos. Uma última coisa, VanillaNet é tão poderoso, venha acompanhar meu trabalho.

3. Estrutura neural de uma única baunilha

A maioria dos modelos de classificação SOTA consiste em três partes: o bloco de haste transforma a imagem de entrada de 3 canais em multicanal e é acompanhado por redução da resolução, o módulo do corpo principal é usado para aprender informações úteis e uma camada totalmente conectada é usada para o classificador .saída. O módulo corporal possui quatro estágios, cada estágio é empilhado por vários blocos idênticos. Após cada estágio, o número de canais de recursos aumentará, enquanto a largura e a altura diminuirão.
No próximo parágrafo, reclamo que ResNet e ViT são muito profundos e profundos, e ViT requer múltiplas camadas de autoatenção.
No desenvolvimento atual de chips de IA, os FLOPs ou quantidades de parâmetros originalmente restritos não são mais o gargalo, porque a GPU NVIDIA de Lao Huang realmente se desenvolveu. Portanto, o design complexo do modelo e os blocos mais profundos tornaram-se os principais fatores que restringem a velocidade. Portanto, este artigo propõe o VanillaNet, conforme mostrado na figura abaixo:
Insira a descrição da imagem aqui
VanillaNet ainda é um design de três estágios, mas a diferença é a profundidade. Cada estágio é construído com apenas uma camada.

Tome o VanillaNet de 6 camadas como exemplo, haste: camada convolucional $4\times4\times3\times C$ , o tamanho do passo é $4$ , vontade $A imagem de entrada do canal de 3$ camadas é mapeada parano canal $C.$ Nos estágios 1, 2 e 3, use um tamanho de passo deUma camada de pooling máximo de $2$ $2$ vezes. No estágio 4, o número de canais não aumenta devido ao agrupamento médio subsequente. A última camada totalmente conectada gera o resultado da classificação. O tamanho do kernel de cada camada convolucional é $1\times1$ , seguido por uma camada de ativação e uma camada de normalização em lote. Esta é toda a estrutura, sem atalhos ou blocos extras.
Como VanillaNet é relativamente simples e uma rede rasa, o que enfraquece o desempenho do modelo, uma série de técnicas são propostas para melhorar sua não-linearidade.

4. Treinamento VanillaNet

4.1 Estratégia de treinamento profundo

A estratégia de treinar duas camadas convolucionais mais uma camada de ativação é diferente de treinar uma única camada convolucional, pois requer a redução gradual da função de ativação à medida que a época de treinamento aumenta. No final do treinamento, as duas camadas convolucionais podem ser fundidas em uma para reduzir o tempo de inferência.
Para uma função de ativação $A (x)$ , como ReLU e Tanh, são combinados com um mapeamento único:
$A'(x)=(1-\lambda)A ( x)+\lambdax$
ondeλ $\lambda$ é o equilíbrio modificado $A^{'} (x)$ hiperparâmetros não lineares da função de ativação. peça $e$ 、 $E$ representa a época atual e o número total de épocas respectivamente, então $\lambda=\frac{e}{E}$ . Então, no início do treinamento, $e = 0, A^{'} (x) = A (x)$ significa que o modelo tem forte não linearidade. À medida que o treinamento converge, finalmente temos $A^{'} (x) = x$ , indicando que não há função de ativação entre as duas camadas convolucionais.

Em seguida, a normalização do lote e a convolução subsequente de cada camada são transformadas em uma única operação de convolução.

令 $W\in\mathbb R^{C_{out}\times(C_{in}\times k\times k)}$ ， $B\in \mathbb R^{C_{out}}$ são os pesos e desvios da camada convolucional respectivamente, insira $C_{in}$ canais, saída $C_{out}$ canais, o tamanho do kernel de convolução é $k$ . A escala, tradução, média e diferencial da normalização em lote são respectivamente $\gamma,\beta,\mu,\sigma\in\mathbb{R}^{C_{out}}$ Exibição, você pode exibir a operação de fusão da versão em lote:
$W_i'=\ frac{\gamma_i }{\sigma_i}W_i,B_i'=\frac{(B_i-\mu_i)\gamma_i}{\sigma_i}+\beta_i$ onde subscrito $i\in\{1,2,\ldots,C_{out}\}$ representa o $O valor de saída do canal i$ .

Em seguida, mescle os dois $1\times1$ convolução. Os recursos de entrada e saída são expressos respectivamente como $x\in\mathbb R^{C_{in}\times H\times W}$ 、 $y\in\mathbb R^{C_{out}\times H'\times W'}$ , então a operação de convolução pode ser expressa como:
$y=W*x=W\cdot\mathrm{im}2\mathrm{col}( x )=W\cponto X$ onde $*$ representa a operação de convolução, $\cdot$ representa a multiplicação de matrizes, $X\in\mathbb R^{(C_{in}\times1\times1)(H'\times W')}$ origina-se de ${\text{im2col}}$ converte a entrada em uma forma correspondente ao kernel de convolução. Para $1\vezes1$ convolução, não há necessidade de deslizar o núcleo de convolução na parte sobreposta (porque não há parte sobreposta). Portanto, a matriz de peso das duas camadas convolucionais é expressa como $W^1$ soma $W ^ 2$ , duas operações de convolução sem função de ativação podem ser expressas como:
$^1*(W^2*x)=W^1\cdot W^2\cdot\text{im}2\text{col}(x)=(W^1\cdot W^2)*X$ Até agora, dois $1\times1$ são fundidas suavemente e não reduzem a velocidade de inferência.

4.2 Função de ativação informada da série

Algumas das principais funções de ativação atuais incluem a Unidade Linear Retificada (ReLU) e suas variantes PReLU, GeLU e Swish. Elas são limitadas pela não linearidade de redes simples e superficiais. Em comparação com redes profundas, essas funções de ativação não foram estudadas sistematicamente. .
Existem duas maneiras de melhorar a não-linearidade das redes neurais: empilhar camadas de ativação não-lineares ou aumentar a não-linearidade de cada camada de ativação.A maioria das redes convencionais escolhe a primeira, o que deixa um alto potencial para a computação paralela.
Uma das idéias diretas é melhorar a capacidade não linear das camadas de ativação empilhadas. Empilhar camadas de ativação em série é a chave para redes profundas. Em contraste, empilhar camadas de ativação simultaneamente é uma boa maneira. Denote a função de ativação de camada única como $UMA (x)$ , $x$ é a entrada e a função pode ser ReLU e Tanh. Pilha $A (x)$ exibição possível:
$A_s(x)=\sum_{i=1}^n a_i A(x+b_i)$ onde $n$ representa o número de funções de ativação empilhadas, $a_i$ 、 $b_i$ são a escala e o viés da função de ativação, respectivamente. A não linearidade da função de ativação pode ser melhorada pelo empilhamento simultâneo.
Para melhorar ainda mais a capacidade de aproximação das séries, a entrada é alterada alterando seus vizinhos para aprender informações globais, semelhante ao BNET. Especificamente, dado o recurso de entrada $CX\in\mathbb R^{H\times W\times C}$ , onde $H$ , $W$ , $C$ são a largura de entrada, altura e número de canais, respectivamente. Portanto, a função de ativação tem a seguinte forma:
$A_s (x_{ h,w,c})=\sum\limits_{i,j\in\{-n,n\}}a_{i,j,c}A(x_{i+h,j+w, c}+ b_c)$ onde $h\in\{1,2,\ldots,H\}$ 、 $w\in\{1,2,\ldots,W\}$ 、 $c\in\{1,2,\ldots,C\}$ . Quando $n = 0$ 时, $A_s(x)=A(x)$ . Este artigo usa ReLU como função de ativação para construir a série.
A seguir, analise sua complexidade computacional: para um kernel de convolução com tamanho $A camada convolucional de K$ $C_{in}$ respectivamente. $C$ 、 $C_{out}$ , a complexidade computacional é:
$\mathcal{O}(\mathrm{CONV})=H\times W\times C_{in}\times C_{ fora}\vezes k^2$ custo da camada de ativação em série é:
$\mathcal{O}(\text{SA})=H\times W\times C_{in}\times n^ 2$ 于是：
$\frac{\mathcal{O}( \text{CONW})}{\mathcal{O}(\text{SA})}=\frac{H\vezes W\vezes C_{entrada}\vezes C_{fora}\vezes K^2}{H\ vezes W\vezes C_{in}\vezes n^2}=\frac{C_{out}\vezes k^2}{n^2}$ Classificado em 4º lugar no VanillaNet-B $Tomemos 4$ estágios como exemplo, onde $C_{out}=2048$ ， $k = 1$ , $n = 7$ , a proporção da fórmula acima é $84$ . Portanto, a complexidade computacional da camada de ativação proposta é menor que a da camada convolucional.

5. Experimente

Conjunto de dados ImageNet.

5.1 Experimento de ablação

A influência do número de séries na função de ativação

Insira a descrição da imagem aqui

O impacto das técnicas de treinamento

Insira a descrição da imagem aqui

O impacto dos ramos de atalho

Insira a descrição da imagem aqui

5.2 Visualização da atenção

Insira a descrição da imagem aqui

5.3 Comparação com arquitetura SOTA

Insira a descrição da imagem aqui

5.4 Experimentos no conjunto de dados COCO

Insira a descrição da imagem aqui

6. Conclusão

Este artigo estuda a viabilidade de redes neurais simples e superficiais e propõe uma estratégia de treinamento profundo e uma função de ativação em série para treinar VanillaNets para aumentar a não linearidade do modelo. Os resultados experimentais mostram que VanillaNets é muito eficaz e espero que todos experimentem.

Apêndice A: Estrutura da rede

Insira a descrição da imagem aqui
Cada camada convolucional é seguida por uma camada de ativação. Para VanillaNet-13-1,5×, o número de canais x1,5. Para VanillaNet-13-1,5×†, o pooling adaptativo é usado posteriormente nos estágios 2, 3 e 4, e o formato correspondente é $40\times40$ , $20\vezes20$ , $10\vezes10$ .

Apêndice B: Detalhes do treinamento

Insira a descrição da imagem aqui
escreva nas costas

Este artigo da Huawei é curto e conciso e realmente reflete as habilidades básicas. Nesta era de aprendizagem “profunda”, é realmente incrível ousar desafiar redes superficiais.