华为和北大等提出视觉Transformer：全面调研 - 代码天地

华为和北大等提出视觉Transformer：全面调研

编程语言 2021-01-30 21:32:05 阅读次数: 0

近期 Transformer在CV领域非常火，很多方向出现了不少优质的工作。其中今年非常有代表性就是：DETR、ViT等。

本文将介绍的就是华为等联合最新提出的视觉Transformer综述。

注：文末附综述PDF下载和Transformer交流群

华为和北大等提出视觉Transformer：全面调研

21页Visual Transformer综述，共计156篇参考文献！

本文将视觉Transformer模型根据不同的任务进行分类（如检测、分类、视频等），并分析了这些方法的优缺点！

A Survey on Visual Transformer

华为和北大等提出视觉Transformer：全面调研

发布时间：2020.12.24

作者单位：华为诺亚, 北京大学, 悉尼大学

论文：https://arxiv.org/abs/2012.12556

扫描二维码关注公众号，回复： 12420348 查看本文章

Transformer是一种主要基于自注意力机制的深度神经网络，最初应用于自然语言处理领域。

华为和北大等提出视觉Transformer：全面调研

受到Transformer强大的表示能力的启发，研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型（例如CNN和RNN）相比，基于Transformer的模型在各种视觉基准上显示出竞争甚至更好的性能。

在本文中，我们通过将这些视觉Transformer模型分类为不同的任务，并分析了这些方法的优缺点，提供了文献综述。特别地，主要类别包括基本图像分类，高级视觉，低级视觉和视频处理。

华为和北大等提出视觉Transformer：全面调研

由于自注意力是的Transformer基本组成部分，因此也简要回顾了计算机视觉中的自注意力。包括有效的Transformer方法，可将Transformer推入实际应用。

华为和北大等提出视觉Transformer：全面调研

基于Transformer的语言代表性模型

华为和北大等提出视觉Transformer：全面调研

视觉Transformer

图像分类领域近期很有代表性的工作有：iGPT、ViT、BiT-L等

推荐阅读：

用Transformer完全替代CNN

Amusi 补充：还有刚出的DeiT

华为和北大等提出视觉Transformer：全面调研

华为和北大等提出视觉Transformer：全面调研
目标检测领域近期很有代表性的工作有：DETR、Deformable DETR等

推荐阅读：

目标检测新坑来了！对标Faster R-CNN！FAIR提出DETR：用Transformers来进行端到端的目标检测

训练加快10倍！性能更强！商汤等提出可变形DETR目标检测网络

华为和北大等提出视觉Transformer：全面调研

车道线检测领域近期很有代表性的工作有：LSTR

420 FPS！LSTR：基于Transformer的车道线检测网络

Low-level Vision领域近期很有代表性的工作有：IPT

推荐阅读：

Transformer再下一城！low-level多个任务榜首被占领，北大华为等联合提出预训练模型IPT

华为和北大等提出视觉Transformer：全面调研

还有很多方向的Transformer应用介绍，详见综述

华为和北大等提出视觉Transformer：全面调研

综述PDF下载

后台回复：Transformer综述，即可下载论文PDF

猜你喜欢

转载自blog.51cto.com/15069443/2612415

华为和北大等提出视觉Transformer：全面调研

视觉+Transformer最新论文出炉，华为联合北大、悉尼大学发表

CVPR 2022 | 超越Swin！华为诺亚&北大提出Wave-MLP：视觉新主干网络

最新综述！南洋理工和上海AI Lab提出基于Transformer的视觉分割综述

Transformer再下一城！low-level多个任务榜首被占领，北大华为等联合提出预训练模型IPT

【计算机视觉】最新综述：南洋理工和上海AI Lab提出基于Transformer的视觉分割综述

CVPR 2022 | 微软提出MiniViT：极致压缩视觉Transformer

ECCV 2022｜微软提出TinyViT：释放小型视觉Transformer的潜力

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

亚马逊李沐团队提出：行为识别的全面调研（2014-2020）

ICCV2019论文解读：北大、华为联合提出无需数据集的Student Networks

视觉Transformer的复仇！Meta AI提出DeiT III：ViT训练的全新baseline

字节提出TRT-ViT：面向TensorRT的视觉Transformer，加速显著！

超越MobileViT！三星提出XFormer：结合CNN的轻量级视觉Transformer

ICCV 2023 | 新注意力！清华黄高团队提出FLatten Transformer视觉新主干

CNNs和视觉Transformer：分析与比较

去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT

NeurIPS 2019 | 华为、北大等联合提出：一种基于正类与未标记样本（PU）的云端网络压缩方法

谷歌提出ColTran：Colorization Transformer

ECCV 2022 | 清华&字节提出ScalableViT：重新思考视觉Transformer面向上下文的泛化

字节提出Next-ViT：工业场景中高效部署的下一代视觉Transformer

【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G：缩放视觉 Transformer，高达 90.45% 准确率

zz全面拥抱Transformer

视觉Transformer笔记

transformer在视觉检测的应用

华为诺亚、北大提出GhostNet，使用线性变换生成特征图，准确率超MobileNet v3 | CVPR 2020...

谷歌提出MaskGIT：掩码生成图像Transformer

超越MobileViT！港中文&三星提出EdgeViT：轻量级视觉Transformer新工作，可与最好的轻量级CNN竞争！...

双视觉Transformer（Dual Vision Transformer）

清华提出ACmix：自注意力和CNN的融合！性能速度全面提升！

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)