EfficientNetV2: Smaller Models and Faster Training学习

摘要

本文介绍了EfficientNetV2,这是一系列新的卷积神经网络,其训练速度更快,参数效率也比先前的模型更好。为了开发这些模型,我们使用了一种结合了训练感知神经架构搜索和缩放的方法,以共同优化训练速度和参数效率。这些模型是从增加了新操作(例如融合-MBConv)的搜索空间中搜索得到的。我们的实验证明,EfficientNetV2模型的训练速度比最先进的模型快得多,同时模型尺寸可减小多达6.8倍。

我们的训练可以通过在训练过程中逐渐增加图像尺寸来进一步加快速度,但这往往会导致准确性下降。为了弥补这种准确性下降,我们提出了一种改进的渐进学习方法,它能够自适应地调整正则化(例如数据增强)以及图像尺寸。

通过渐进学习,我们的EfficientNetV2在ImageNet和CIFAR/Cars/Flowers数据集上显著优于之前的模型。通过在相同的ImageNet21k上进行预训练,我们的EfficientNetV2在ImageNet ILSVRC2012上实现了87.3%的Top-1准确率,比最近的ViT模型高出2.0%的准确率,同时使用相同的计算资源训练速度提高了5倍至11倍。代码可在https://github.com/google/automl/tree/master/efficientnetv2上获取。

介绍

训练效率对于深度学习非常重要,因为模型规模和训练数据量越来越大。例如,GPT-3(Brown等,2020)拥有更大的模型和更多的训练数据,在少样本学习方面展示了卓越的能力,但它需要数周的训练时间和数千个GPU,这使得重新训练或改进变得困难。

"TPU days"指的是使用TPU&#x

猜你喜欢

转载自blog.csdn.net/dragon_T1985/article/details/130784495