DAT:Vision Transformer with Deformable Attention

在这里插入图片描述
在这里插入图片描述

这篇文章是相对于Swin-Transformer和PVT进行改进,加入了可变形机制,同时控制网络不增加太多的计算量,作者认为,缩小q对应的k的范围,能够减少无关信息的干扰,增强信息的捕捉,于是引入了DCN机制到注意力模块中,提出了一种新的注意力模块:可变形多头注意力模块——对k和v进行DCN偏移后再计算注意力。将这个模块替换到Swin-Transformer的第三四阶段的滑动窗口注意力部分,获得了较好的实验性能。

原文链接:Vision Transformer with Deformable Attention
源码地址:https://github.com/LeapLabTHU/DAT

Vision Transformer with Deformable Attention

猜你喜欢

转载自blog.csdn.net/qq_45122568/article/details/125508275