密集预测的视觉Transformer:Vision Transformers for Dense Prediction

论文地址:

https://arxiv.org/abs/2103.13413

代码地址:

https://github.com/isl-org/DPT

主要工作:

我们引入了密集的视觉Transformer,这是一种利用视觉Transformer代替卷积网络作为密集的预测任务的主干的架构。我们将来自视觉Transformer不同阶段的token组装成不同分辨率的类图像表示,并使用卷积解码器逐步将它们组合成全分辨率的预测。Transformer主干以一个恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域。与全卷积网络相比,这些特性允许密集的视觉Transfo

猜你喜欢

转载自blog.csdn.net/weixin_44936889/article/details/120789882