Ultrapasse o limite da eficiência do aprendizado autossupervisionado! Ma Yi e LeCun lançaram EMP-SSL em conjunto: SOTA pode ser alcançado em 30 épocas sem truques sofisticados

Fonte | Identificação de Xinzhiyuan | Era da IA

Nos últimos anos, o aprendizado não supervisionado e autossupervisionado (SSL) fez grandes progressos. As representações aprendidas por meio do SSL alcançaram o aprendizado supervisionado no desempenho da classificação e até superaram o aprendizado supervisionado em alguns casos. Essa tendência também abre as portas para o aprendizado supervisionado. possibilidade de aprendizagem não supervisionada baseada em dados em larga escala para tarefas de visão.

Embora o desempenho experimental do aprendizado autossupervisionado seja incrível, a maioria dos métodos de aprendizado autossupervisionado é bastante "ineficiente", geralmente exigindo centenas de épocas de treinamento para convergir totalmente.

foto

Recentemente, a equipe do professor Ma Yi e do vencedor do Turing Award, Yann LeCun, lançou um novo método de aprendizado autossupervisionado, o Extreme-Multi-Patch Self-Supervisioned-Learning (EMP-SSL), que provou que a chave para o aprendizado autossupervisionado eficiente é aumentar cada O número de blocos de imagem em uma instância de imagem.

foto

Link do artigo: https://arxiv.org/pdf/2304.03977.pdf

Link do código: https://github.com/tsb0601/EMP-SSL

O método não depende de técnicas heurísticas comuns no aprendizado autossupervisionado, como compartilhamento de peso entre ramificações, normalização de recursos, quantização de saída e gradientes de parada, etc., e reduz o tempo de treinamento em duas ordens de grandeza.

Os resultados experimentais mostram que com apenas uma época de treinamento, o método proposto pode convergir para 85,1% de precisão no conjunto de dados CIFAR-10, 58,5% no conjunto de dados CIFAR-100 e 58,5% no Tiny ImageNet. 38,1%, convergiram para 58,5 % no ImageNet-100

Se o número de épocas de treinamento for aumentado para 10, o método pode atingir 91,5% no CIFAR-10, 70,1% no CIFAR-100, 51,5% no Tiny ImageNet e 78,9% no ImageNet-100

Além disso, os resultados também mostram que o EMP-SSL exibe um desempenho de transferência fora do domínio razoavelmente bom em dados de treinamento em comparação com outros métodos de linha de base.

O professor Ma Yi recebeu um diploma de bacharel duplo em automação e matemática aplicada pela Tsinghua University em 1995, um mestrado em EECS pela University of California, Berkeley em 1997 e um mestrado em matemática e doutorado em EECS em 2000.

foto

Em 2018, o professor Ma Yi ingressou no Departamento de Engenharia Elétrica e Ciência da Computação da Universidade da Califórnia, Berkeley. Em janeiro deste ano, ingressou na Universidade de Hong Kong como Reitor do Instituto de Ciência de Dados e, recentemente, assumiu como Diretor do Departamento de Computação da Universidade de Hong Kong.

As principais direções de pesquisa são visão computacional 3D, modelos de baixa dimensão para dados de alta dimensão, otimização de escalabilidade e aprendizado de máquina. Tópicos de pesquisa recentes incluem reconstrução e interação geométrica 3D em larga escala e a relação entre modelos de baixa dimensão e redes profundas .

EMP-SSL

processo geral

Semelhante a outros métodos SSL, o EMP-SSL obtém incorporações conjuntas de exibições aumentadas de imagens, onde as exibições aumentadas são patches de imagem de tamanho fixo.

Este tipo de abordagem tem dois objetivos:

1. A representação de duas imagens realçadas diferentes da mesma imagem deve ser mais próxima;

2. O espaço de representação não deve ser um espaço trivial colapsado, ou seja, a importante estrutura geométrica ou aleatória dos dados deve ser preservada.

Estudos anteriores exploraram principalmente várias estratégias e diferentes heurísticas para alcançar essas duas propriedades, e alcançaram um desempenho cada vez melhor, e seu sucesso decorre principalmente do aprendizado da co-ocorrência de manchas de imagem.

Para tornar o aprendizado da co-ocorrência de patch de imagem mais eficiente, os pesquisadores aumentaram o número de patches de imagem no aprendizado auto-supervisionado até o limite (extremo) em EMP-SSL.

Em primeiro lugar, para a imagem de entrada, ela é dividida em n blocos de imagem de tamanho fixo por corte aleatório (sobreposição) e, em seguida, os blocos de imagem são aprimorados usando técnicas de aprimoramento de dados padrão.

Para cada bloco de imagem aprimorado, duas redes são usadas para obter incorporação e projeção, respectivamente, onde a rede de incorporação é uma rede relativamente profunda (como ResNet-18) e a rede de projeção é menor, com apenas duas camadas completas. juntos formam o codificador.

foto

Durante o treinamento, o modelo emprega uma técnica de regularização Total Coding Rate (TCR) para evitar o colapso da representação.

foto

Os pesquisadores também esperam que as representações de diferentes manchas de imagem de uma mesma imagem sejam invariantes, ou seja, devem estar o mais próximo possível no espaço de representação, então tente minimizar a diferença entre a representação da imagem aprimorada e a representação média de todos os patches de imagem aprimorados na mesma distância de imagem, portanto, o objetivo do treinamento é:

foto

Dentre elas, Z representa a representação média de diferentes blocos de imagens aprimoradas, e D é a função de distância (semelhança de cosseno), ou seja, quanto maior o valor de D, mais semelhantes eles são.

Essa função objetiva pode ser vista como uma variante da redução máxima da taxa (redução máxima da taxa) e também pode ser vista como uma versão generalizada do método SSL baseado em covariância. método de aprendizado, e n também pode ser maior para melhorar a velocidade de aprendizado da contribuição do bloco de imagem

foto

bolsa de recursos

Os pesquisadores definem a representação da imagem de entrada como a média de incorporação de todos os blocos de imagem, mas alguns trabalhos acreditam que se a representação de incorporação contiver mais séries aritméticas e localidade, o desempenho será melhor e a projeção deve ser mais estável, mas esta conclusão ainda carece de prova rigorosa.

arquitetura

Os pesquisadores tentaram adotar uma forma simples de arquitetura de rede frequentemente usada em aprendizado auto-supervisionado, ou seja, EMP-SSL não requer redes de predição, codificadores de momento, operadores indiferentes ou gradientes de parada.

Embora esses métodos tenham se mostrado eficazes em alguns métodos de aprendizado autossupervisionado, sua eficácia pode ser deixada para uma exploração mais aprofundada.Este artigo enfoca a eficácia dos métodos de aprendizado autossupervisionados propostos.

Resultados experimentais

Aprendizagem auto-supervisionada por uma época

Comparando com outros métodos de aprendizado auto-supervisionados de última geração, pode-se ver que, mesmo que o EMP-SSL tenha visto o conjunto de dados apenas uma vez, ele pode convergir para um desempenho SOTA quase totalmente convergente.

foto

Os resultados mostram que o método tem grande potencial não apenas em melhorar a convergência dos métodos SSL atuais, mas também em outras áreas da visão computacional, como aprendizado online, aprendizado incremental e aprendizado de robôs.

Convergência rápida em conjuntos de dados padrão

Em conjuntos de dados padrão, incluindo CIFAR-10, CIFAR-100, Tiny ImageNet e ImageNet-100, os pesquisadores verificaram a eficiência da função objetiva proposta em termos de velocidade de convergência.

foto

Pode-se observar que após apenas uma época de treinamento, o EMP-SSL atinge uma taxa de precisão de 80,6% na configuração de 20 blocos de imagem e uma taxa de precisão de 82,6% na configuração de 200 blocos de imagem.

foto

Após 10 épocas, o EMP-SSL convergiu para mais de 90%, que também é o método de aprendizado auto-supervisionado mais avançado no conjunto de dados CIFAR-10; e em 30 épocas, a precisão do EMP-SSL excedeu todos os métodos atuais, atingindo mais de 93%.

Com relação à questão da eficiência do tempo, no aprendizado autossupervisionado de incorporação conjunta, o aumento do número de patches da imagem pode prolongar o tempo de treinamento.

Os pesquisadores compararam o tempo necessário para cada método atingir o desempenho especificado no CIFAR, usando duas GPUs A100 para experimentos.

foto

A partir dos resultados experimentais, pode-se ver que no conjunto de dados CIFAR-10, o EMP-SSL não apenas precisa de muito menos épocas de treinamento para convergir, mas também tem um tempo de execução menor.

No conjunto de dados CIFAR-100, mais complexo, essa vantagem é ainda mais óbvia. O método anterior requer mais épocas de treinamento, portanto, o tempo de convergência também é maior, enquanto o EMP-SSL precisa apenas de algumas épocas de treinamento para obter um bom efeito.

visualização de representação

Os pesquisadores usaram os resultados dos mapas t-SNE para demonstrar que, apesar de apenas treinar por algumas épocas, o EMP-SSL aprendeu representações significativas.

foto

No mapa de representação aprendido no conjunto de treinamento CIFAR-10, o EMP-SSL é treinado por 10 épocas usando 200 patches de imagem, e outros métodos SOTA são treinados por 1000 épocas, onde cada cor representa uma categoria diferente.

Pode-se ver que as representações aprendidas pelo EMP-SSL para diferentes categorias são mais bem separadas e mais estruturadas; em comparação com outros métodos SOTA, os recursos aprendidos pelo EMP-SSL mostram uma estrutura de baixa dimensão mais refinada.

O mais incrível é que todas essas estruturas são aprendidas em apenas 10 épocas de treinamento!

Experimento de ablação de número de bloco de imagem

Os pesquisadores também realizaram experimentos de ablação do número de patches da imagem n na função objetivo, demonstrando a importância desse parâmetro no processo de convergência.

foto

Referências:

https://arxiv.org/pdf/2304.03977.pdf

Acho que você gosta

Origin blog.csdn.net/lqfarmer/article/details/132110745
Recomendado
Clasificación