ResNet-RS: Google lidera afinação da ResNet, e seu desempenho supera a série EfficientNet | 2021 arxiv

O artigo reexamina a estrutura, o método de treinamento e a estratégia de dimensionamento do ResNet e propõe a série ResNet-RS cujo desempenho supera o EfficientNet de maneira geral. A partir dos resultados experimentais, a melhoria de desempenho é bastante alta e vale a pena consultar

Fonte: A engenharia de algoritmos de Xiaofei observa a conta pública

论文: Revisitando ResNets: Treinamento aprimorado e estratégias de dimensionamento

Introdução


 A precisão do modelo visual é determinada pela estrutura, método de treinamento e estratégia de escala.O experimento do novo modelo geralmente usa o novo método de treinamento e hiperparâmetros, e não pode ser comparado diretamente com os resultados do modelo antigo obtidos pelo método de treinamento desatualizado. Para tanto, o artigo pretende verificar o impacto de diferentes métodos de treinamento e estratégias de dimensionamento na ResNet.
As principais contribuições do artigo são as seguintes:

  • Partindo da premissa de não alterar a estrutura do modelo, os efeitos dos métodos de regularização e suas combinações são verificados através de experimentos, obtendo-se uma estratégia de regularização que pode melhorar o desempenho.
  • Proponha uma estratégia de dimensionamento simples e eficiente: 1) Se a configuração experimental pode ser super-ajustada (como um longo período de treinamento), dimensione a profundidade primeiro, caso contrário dimensione a largura. 2) Dimensione a resolução de entrada mais lentamente.
  • Aplicando os resultados experimentais acima da estratégia de regularização e estratégia de dimensionamento ao ResNet para propor o ResNet-RS, o desempenho supera o EfficientNet de maneira geral.
  • O pré-treinamento semi-supervisionado do ResNet-RS com 130 milhões de imagens adicionais de pseudo-rótulo atinge 86,2% de desempenho em ImageNet e treinamento 4,7 vezes mais rápido em TPU.
  • O modelo ResNet-RS obtido por autosupervisão é ajustado em diferentes tarefas de visão, e o desempenho está no mesmo nível ou supera o SimCLR e o SimCLRv2.
  • Aplicando 3D ResNet-RS à classificação de vídeo, o desempenho é 4,8% superior à linha de base.

Caracterizando melhorias no ImageNet


 A melhoria do modelo pode ser dividida em quatro direções: melhoria estrutural, métodos de treinamento/regularização, estratégias de dimensionamento e uso de dados de treinamento adicionais.

Arquitetura

 A pesquisa sobre novas estruturas recebeu mais atenção, e o surgimento da busca de redes neurais fez com que a pesquisa de estruturas fosse um passo adiante. Existem também algumas estruturas que partem das redes convolucionais clássicas, como adicionar autoatenção ou outras alternativas, como camadas lambda.

Métodos de Treinamento e Regularização

 Quando o modelo precisa ser treinado por mais tempo, métodos regulares (como dropout, suavização de rótulos, profundidade estocástica, dropblock) e aumento de dados podem efetivamente melhorar a capacidade de generalização do modelo, e um melhor método de ajuste da taxa de aprendizado também pode melhorar a precisão final do modelo. Para uma comparação justa com trabalhos anteriores, alguns estudos simplesmente usam um cenário de treinamento não regularizado, o que obviamente não reflete o desempenho extremo do estudo.

Estratégias de dimensionamento

 Aumentar as dimensões do modelo (largura, profundidade e resolução) também é uma maneira eficaz de melhorar a precisão. Especialmente em modelos de linguagem natural, o tamanho do modelo tem um impacto direto na precisão e é igualmente eficaz em modelos de visão. Com o aumento dos recursos computacionais, a dimensão do modelo pode ser aumentada adequadamente. Para sistematizar essa adaptação, EfficentNet propõe um método de fator de escala híbrido para equilibrar a relação entre profundidade, largura e resolução da rede ao escalar, mas o artigo constata que esse método não é o ideal.

Dados de treinamento adicionais

 Outra maneira eficaz de melhorar o desempenho é usar conjuntos de dados adicionais para pré-treinamento. Modelos pré-treinados em conjuntos de dados de grande escala podem obter um bom desempenho no ImageNet. Deve-se notar que não é necessário rotular um conjunto de dados bem rotulado aqui, e o treinamento semi-supervisionado usando pseudo-rótulos também pode obter um bom desempenho.

Metodologia


Arquitetura

 Estruturalmente, o ResNet-RS adota apenas as melhorias do ResNet-D mais SENet, que são frequentemente adotadas nos modelos atuais.

  • ResNet-D

 Quatro melhorias foram feitas no ResNet nativo: 1) A 7 × 7 7\vezes 7 circunvoluções substituídas por 3 3 × 3 3\times 3 卷积。2)交换下采样模块的residual路径的头两个卷积的stride配置。3)将下采样模块的skip路径中的stride-2 1 × 1 1\times 1 卷积替换为stride-2 2 × 2 2\times 2 平均池化和non-strided 1 × 1 1\times 1 卷积。4)去掉stem中的stride-2 3 × 3 3\times 3 最大池化层,在下个bottleneck的首个 3 × 3 3\times 3 卷积中进行下采样。

  • Squeeze-and-Excitation

 SE模块通过跨通道计算获得的各通道的权值,然后对通道进行加权。设置ratio=0.25,在每个bottleneck中都加入。

Training Method

 研究当前SOTA分类模型中使用的正则化和数据增强方法,以及半监督/自监督学习。

  • Matching the EfficientNet Setup

 训练方法与EfficientNet类似,共训练350轮,有以下细微的差异:1)使用cosine学习率调整方法。2)使用RandAugment增强数据。EfficientNet最初使用AutoAugment增强数据,使用RandAugment结果变化不大。3)为了简便,使用Momentum优化器而不是RMSProp优化器。

  • Regularization

 使用weight decay,label smoothing,dropout和stochastic depth进行正则化。

  • Data Augmentation

 使用RandAugment数据增强作为额外的正则化器,对每张图片使用一系列随机增强方法。

  • Hyperparameter Tuning

 为了快速选择适合不同正则方法和训练方法的超参数,使用包含ImageNet的2%(1024分片取20分片)数据构成minival-set,而原本的ImageNet验证集作为validation-set。

Improved Training Methods


Additive Study of Improvements

 论文对各训练方法、正则化方法、结构优化进行了叠加实验,结果如表2所示,训练方法和正则化方法带来的提升大约占3/4的总精度提升。

Importance of decreasing weight decay when combining regularization methods

 论文在使用RandAugment和label smoothing时,没有改变默认的weight decay设置,性能有提升。但在加入dropout或stochastic depth后,性能出现了下降,最后通过降低weight decay来恢复。weight decay用于正则化参数,在搭配其它正则化处理时,需要降低其值避免过度正则化。

Improved Scaling Strategies


 为了探索模型缩放的逻辑,预设宽度比例[0.25, 0.5, 1.0, 1.5, 2.0]、深度比例[26, 50, 101, 200, 300, 350, 400]以及分辨率[128, 160, 224, 320, 448],组合不同的比例进行模型性能的实验。每个组合训练350周期,训练配置与SOTA模型一致,在模型大小增加时,相应地加强正则化的力度。
主要有以下发现:

  • FLOPs do not accurately predict performance in the bounded data regime。在模型较小时,模型性能跟模型大小成正相关关系,但当模型变得越大后,这种关系就变得越不明显了,转而跟缩放策略有关。使用不同缩放策略将模型缩放到相同大小,模型越大,性能差异越大。

  • The best performing scaling strategy depends on the training regime。不同训练周期下,不同缩放版本的性能曲线差异较大,因此缩放策略的最好性能跟实验的设置有很大关系。

Strategy #1 - Depth Scaling in Regimes Where Overfitting Can Occur

 Depth scaling outperforms width scaling for longer epoch regimes。从图3右可以看出,在350周期的训练配置下,深度缩放在任意输入分辨率下都要比宽度缩放更有效。宽度缩放对过拟合是次优的,甚至有时会导致性能损失,这可能由于宽度缩放引入了过多参数,而深度缩放仅引入少量参数。
Width scaling outperforms depth scaling for shorter epoch regimes,从图3左可以看出,在10周期的训练配置下,宽度缩放更优。而从图3中可以看出,在100周期的训练配置下,搭配不同的输入分辨率,深度缩放和宽度缩放的性能各有差异。

Strategy #2 - Slow Image Resolution Scaling

 从图2可以看出,输入分辨率越大,可带来的收益增加越少,也就是性价比越低。因此,在输入分辨率缩放上,论文采取最低优先级,从而更好地折中速度和准确率。

Two Common Pitfalls in Designing Scaling Strategies

 在分析缩放策略时,论文发现了两个常见的错误做法:

  • Extrapolating scaling strategies from small-scale regimes,从小尺寸的实验设置进行研究。以往的搜索策略通常使用小模型或较短的训练周期进行研究,这种场景最优的缩放策略不一定能迁移到大模型和较长周期下的训练。因此,论文不推荐在这种场景下花费大力气进行缩放策略实验。
  • Extrapolating scaling strategies from a single and potentially sub-optimal initial architecture,从次优的初始结构进行缩放会影响缩放的结果。比如EfficientNet的混合缩放固定了计算量和分辨率进行搜索,然而分辨率也是影响准确率的一个影响因素。因此,论文综合宽度、深度和分辨率进行缩放策略研究。

Summary of Improved Scaling Strategies

 对于新任务,论文建议先使用小点的训练子集,对不同尺寸的配置进行完整周期训练测试,找到对准确率影响较大的缩放维度。对于图片分类,缩放策略主要有以下两点:

  • 如果实验配置可能出现过拟合(比如训练周期长),优先缩放深度,否则缩放宽度。
  • 缓慢地缩放输入分辨率。

 论文最终搜索得到的ResNet-RS系列的配置如表7所示,在准确率匹配EfficientNet的前提下,TPU上的计算速度快1.7~2.7倍。需要说明的是,虽然ResNet-RS的计算量和参数量普遍比EfficientNet高,但ResNet-RS的实际计算速度和内存使用都更优秀,说明计算量和参数量并不能直接代表速度大小和内存占用。

Experiment


 对EfficentNet进行优化后对比。

 半监督效果对比。

 自监督在不同任务上的效果对比。

 视频分类的对比实验。

Conclusion


 O artigo reexamina a estrutura, o método de treinamento e a estratégia de dimensionamento do ResNet e propõe a série ResNet-RS cujo desempenho supera o EfficientNet de maneira geral. A partir dos resultados experimentais, a melhoria de desempenho é bastante alta, o que vale a pena referência.



Se este artigo for útil para você, curta ou assista~
Para mais conteúdo, preste atenção na conta pública do WeChat [Notas de engenharia de algoritmo de Xiaofei]

Je suppose que tu aimes

Origine juejin.im/post/7117097550594703368
conseillé
Classement