论文精读:PVT v2: Improved Baselines with Pyramid Vision Transformer

企业开发 2023-01-29 03:48:23 阅读次数: 0

论文地址:https://arxiv.org/abs/2106.13797

源码地址:https://github.com/whai362/PVT

Abstract

在这项工作中，作者改进了PVT v1，提出了新的基线，包括(1)线性复杂度注意层，(2)重叠patch嵌入，(3)卷积前馈网络。通过这些修改，PVT v2将PVT v1的计算复杂度降低到线性，并在分类、检测和分割等基本视觉任务上取得了显著的改进。

3. Methodology

3.1. Limitations in PVT v1

PVT v1 [33]有三个主要限制： (1)与ViT [8]类似，当处理高分辨率输入（例如，短边为800像素）时，PVT v1的计算复杂度相对较大。(2) PVT v1 [33]将图像视为一系列不重叠的斑块，在一定程度上失去了图像的局部连续性；(3)PVTv1中的位置编码是固定大小的，对于任意大小的处理图像是不灵活的。这些问题限制了PVT v1在视觉任务上的性能。

3.2. Linear Spatial Reduction Attention

首先，为了降低注意操作引起的高计算成本，我们提出了线性空间减少注意（SRA）层，如图1所示。与使用卷积进行空间约简的SRA [33]不同，线性SRA使用平均池化将空间维数（即h×w）降低到固定的大小（即P×P）。因此，线性SRA就像卷积层一样具有线性计算和内存成本。具体来说，给定大小为h××的输入，SRA和线性SRA的复杂度为：

3.3. Overlapping Patch Embedding

其次，为了对局部连续性信息进行建模，我们利用重叠斑块嵌入技术对图像进行标记化。如图2(a)所示，我们扩大了补丁窗口，使相邻的窗口重叠了一半的区域，并用零填充特征图以保持分辨率。在这项工作中，我们使用卷积与零的补丁来实现重叠的补丁嵌入。具体来说，给定大小为h×w×c的输入，我们将其与S的步幅、2S−1的核大小、S−1的填充大小和 ${c}'$ 的核数进行卷积。输出大小为。

3.4. Convolutional Feed-Forward

第三，受[17,6,20]的启发，我们删除了固定大小的位置编码[8]，并在PVT中引入零填充位置编码。如图2(b)所示，我们在前馈网络中第一个全连接（FC）层和GELU [15]之间添加了3×3的深度可分离卷积[16]。

在PVT V1中，位置编码是使用nn.Parameter生成一组可学习的位置编码，在PVT V2中,直接删除了位置编码，作者直接删除了位置编码，在MLP层中添加了深度卷积（用0进行权重初始化）

3.5. Details of PVT v2 Series

参考resnet的设置

3.6. Advantages of PVT v2

结合这些改进，PVT v2可以(1)获得更多的图像和特征图的局部连续性；(2)更灵活地处理可变分辨率的输入；(3)享受与CNN相同的线性复杂度。

4. Experiment

4.1. Image Classifification

4.2. Object Detection

4.3. Semantic Segmentation

4.4. Ablation Study

4.4.1 Model Analysis

Overlapping patch embedding (OPE) is important.

OPE是有效的，因为它可以通过重叠的滑动窗口来建模图像和特征图的局部连续性。

Convolutional feed-forward network (CFFN) matters.

与原始的前馈网络（FFN）[8]相比，我们的CFFN包含了一个零填充的卷积层。它可以捕获输入张量的局部连续性。此外，由于OPE和CFFN中的零加法引入的位置信息，我们可以删除PVT v1中使用的固定大小的位置嵌入，使模型能够灵活地处理可变分辨率的输入。

对于zero-padding，我个人理解卷积时为了保证特征图进行的0填充。源码与正常卷积的padding的方式并无差别，不排除是作者去除了位置编码，为了写论文方便解释而特别说明

Linear SRA (LSRA) contributes to a better model.

LSRA的计算成本低，效果好。

4.4.2 Computation Overhead Analysis

PVT V2开销更低

猜你喜欢

转载自blog.csdn.net/qq_52053775/article/details/127823024

论文精读:PVT v2: Improved Baselines with Pyramid Vision Transformer

PVT v2: Improved Baselines with Pyramid Vision Transformer

论文阅读：PVT v2: Improved Baselines with Pyramid Vision Transformer

PVT论文精读:Pyramid Vision Transformer: A Versatile Backbone for Dense Predictionwithout Convolutions

PVT(Pyramid Vision Transformer)学习记录

深度学习论文精读[14]：Vision Transformer

【深度学习】（ICCV-2021）PVT-金字塔 Vision Transformer及PVT_V2

无监督对比学习之师夷长技以制夷的MOCO v2《Improved Baselines with Momentum Contrastive Learning》

ViT【Vision Transformer】论文逐段精读【论文精读】

论文精读：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Improved Baselines with Momentum Contrastive Learning

论文解读PydMobileNet: Improved Version of MobileNets with Pyramid Depthwise Separable Convolution

Vision Transformer 论文 + 详解（ ViT ）

论文精读:Swin Transformer V2: Scaling Up Capacity and Resolution

MyDLNote-Transformer : Pyramid Vision Transformer 一个无卷积的密集预测通用Backbone

DL-Paper精读：Vision Transformer

李沐精读论文：Swin transformer: Hierarchical vision transformer using shifted windows

Vision Transformer

【ICCV2021】Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

推荐必读 Vision Transformer 论文集

Torch 论文复现：Vision Transformer (ViT)

论文阅读笔记：Vision Transformer (ViT)

ViT（Vision Transformer）论文笔记

论文阅读：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

【神经网络】2021-ICCV-Pyramid Vision Transformer：用于无卷积密集预测的多功能骨干

DeepLab v2论文精读

TNT:Transformer in transformer论文精读

VIT Adapter【Vision Transformer Adapter for Dense Predictions】论文笔记

【读论文】MPViT : Multi-Path Vision Transformer for Dense Prediction

论文笔记-Exploring Plain Vision Transformer Backbones for Object Detection

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)