Swin Transformer 升级，Swin V2：向更大容量、更高分辨率的更大模型迈进

作者丨happy
编辑丨极市平台
本文原创首发于极市平台公众号，转载请获得授权并标明出处

论文链接：https://arxiv.org/pdf/2111.09833.pdf

代码链接：https://github.com/microsoft/Swin-Transformer

SwinTransformer重磅升级 ！MSRA提出SwinV2，朝着更大容量、更高分辨率的更大模型出发，在多个基准数据集(包含ImageNet分类、COCO检测、ADE20K语义分割以及Kinetics-400动作分类)上取得新记录。针对SwinV1在更大模型方面存在的几点问题，提出了后规范化技术、对数空间连续位置偏置技术、大幅降低GPU占用的实现等得到了具有超高性能的SwinV2，刷新了多个基准数据集的指标。

Abstract

本文提出一种升级版SwinTransformerV2，最高参数量可达3 Billion，可处理 $1536\times 1536$ 尺寸图像。通过提升模型容量与输入分辨率，SwinTransformer在四个代表性基准数据集上取得了新记录：84.%@ImageNetV2、63.1 box 与54.4 max mAP@COCO、59.9mIoU@ADE20K以及86.8%@Kinetics-400(视频动作分类)。

所提技术可以广泛用于视觉模型缩放，该技术在NLP语言建模中已得到广泛探索，但在视觉任务中尚未进行，主要是因为以下几点训练与应用难题：

视觉模型通常面临尺度不稳定 问题；
下游任务需要高分辨率图像，尚不明确如何将低分辨率预训练模型迁移为高分辨率版本 ；
此外，当图像分辨率非常大时，GPU显存占用 也是个问题。

为解决上述问题，我们以SwinTransformer作为基线，提出了几种改进技术：

扫描二维码关注公众号，回复： 13314454 查看本文章

提出后规范化(Post Normalization)技术 与可缩放(Scaled)cosine注意力提升大视觉模型的稳定性;
提出log空间连续位置偏置 技术进行低分辨率预训练模型向高分辨率模型迁移。
此外，我们还共享了至关重要的实现细节 ，它可以大幅节省GPU显存占用以使得大视觉模型训练变得可行。

基于上述技术与自监督预训练，我们成功训练了一个包含3B参数量的SwinTransformer模型并将其迁移到不同的高分辨率输入的下游任务上，取得了SOTA性能。

全文地址：Swin Transformer 重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

关注极市平台公众号，获取最新CV干货
在这里插入图片描述

Swin Transformer 升级，Swin V2：向更大容量、更高分辨率的更大模型迈进

Abstract

猜你喜欢