SuperViT:Super Vision Transformer

在这里插入图片描述这篇文章主要针对减少Vision Transformer的计算消耗,提出了一种新的方法。在ViT中我们已知Transformer的token数量与patch大小成反比,这表示patch大小越小的模型计算成本越高,而patch越大模型效果的损失就越大。这正和我们的目的相背离。SuperViT的作者从两个方面来提升性能:多尺度的patch分割多种保留率。尽量的减少计算量加速计算并维持较好的模型性能。该种方法用在图像分类上基本没什么问题,但是在超分领域,像素的丢弃还是会较严重的影响模型的性能。

原文链接:Super Vision Transformer

猜你喜欢

转载自blog.csdn.net/qq_45122568/article/details/125480313