华为和北大等提出视觉Transformer:全面调研

近期 Transformer在CV领域非常火,很多方向出现了不少优质的工作。其中今年非常有代表性就是:DETR、ViT等。

本文将介绍的就是华为等联合最新提出的视觉Transformer综述。

注:文末附综述PDF下载和Transformer交流群

华为和北大等提出视觉Transformer:全面调研

21页Visual Transformer综述,共计156篇参考文献!

本文将视觉Transformer模型根据不同的任务进行分类(如检测、分类、视频等),并分析了这些方法的优缺点!

A Survey on Visual Transformer

华为和北大等提出视觉Transformer:全面调研

发布时间:2020.12.24

作者单位:华为诺亚, 北京大学, 悉尼大学

论文:https://arxiv.org/abs/2012.12556

扫描二维码关注公众号,回复: 12420348 查看本文章

Transformer是一种主要基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。

华为和北大等提出视觉Transformer:全面调研

受到Transformer强大的表示能力的启发,研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型(例如CNN和RNN)相比,基于Transformer的模型在各种视觉基准上显示出竞争甚至更好的性能。

在本文中,我们通过将这些视觉Transformer模型分类为不同的任务,并分析了这些方法的优缺点,提供了文献综述。特别地,主要类别包括基本图像分类,高级视觉,低级视觉和视频处理。

华为和北大等提出视觉Transformer:全面调研

由于自注意力是的Transformer基本组成部分,因此也简要回顾了计算机视觉中的自注意力。包括有效的Transformer方法,可将Transformer推入实际应用。

华为和北大等提出视觉Transformer:全面调研
华为和北大等提出视觉Transformer:全面调研

基于Transformer的语言代表性模型

华为和北大等提出视觉Transformer:全面调研

视觉Transformer

图像分类领域近期很有代表性的工作有:iGPT、ViT、BiT-L等

推荐阅读:

用Transformer完全替代CNN

Amusi 补充:还有刚出的DeiT

华为和北大等提出视觉Transformer:全面调研

华为和北大等提出视觉Transformer:全面调研
目标检测领域近期很有代表性的工作有:DETR、Deformable DETR等

推荐阅读:

目标检测新坑来了!对标Faster R-CNN!FAIR提出DETR:用Transformers来进行端到端的目标检测

训练加快10倍!性能更强!商汤等提出可变形DETR目标检测网络

华为和北大等提出视觉Transformer:全面调研

车道线检测领域近期很有代表性的工作有:LSTR

420 FPS!LSTR:基于Transformer的车道线检测网络

Low-level Vision领域近期很有代表性的工作有:IPT

推荐阅读:

Transformer再下一城!low-level多个任务榜首被占领,北大华为等联合提出预训练模型IPT

华为和北大等提出视觉Transformer:全面调研

还有很多方向的Transformer应用介绍,详见综述

华为和北大等提出视觉Transformer:全面调研

综述PDF下载

后台回复:Transformer综述,即可下载论文PDF

猜你喜欢

转载自blog.51cto.com/15069443/2612415