YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.80】引入即插即用CloFormer: 注意力机制与卷积的完美融合

前言
作为当前先进的深度学习目标检测算法YOLOv8，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv8的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv8，YOLOv7、YOLOv5算法2020年至今已经涌现出大量改进论文，这个不论对于搞科研的同学或者已经工作的朋友来说，研究的价值和新颖度都不太够了，为与时俱进，以后改进算法以YOLOv7为基础，此前YOLOv5改进方法在YOLOv7同样适用，所以继续YOLOv5系列改进的序号。另外改进方法在YOLOv5等其他目标检测算法同样可以适用进行改进。希望能够对大家有帮助。

一、解决问题

CloFormer探索了普通卷积算子中经常使用的全局共享权重与注意力中出现的特定于令牌的上下文感知权重之间的关系，然后提出了一个有效而直接的模块来捕获高频局部信息。引入最新的创新点，助力目标检测算法涨点创新写论文。

二、基本原理

摘要：视觉转换器（ViTs）已被证明在各种视觉任务中都是有效的。然而，将它们调整为适合移动的大小会导致显著的性能下降。因此，开发轻量级视觉转换器已成为一个重要的研究领域。本文介绍了CloFormer，一种利用上下文感知局部增强的轻量级视觉转换器。CloFormer探索了普通卷积算子中经常使用的全局共享权重与注意力中出现的特定于令牌的上下文感知权重之间的关系，然后提出了一个有效而直接的模块来捕获高频局部信息。在CloFormer中，我们介绍了注意力风格的卷积算子AttnCov。所提出的AttnCov使用共享权重来聚集局部信息，并部署精心设计的上下文感知权重来增强局部特征。AttnCov和香草注意力的结合使用池化来减少CloFormer中的FLOP，使模型能够感知高频和低频信息。在图像分类、对象检测和语义分割方面进行了大量实验，证明了CloFormer的优越性。

三、添加方法

以下为将该模块融入YOLOv5-6.0版本C3中，形成新的C3_Clo模块，详细改进代码可私信我获取。

四、总结

预告一下：下一篇内容将继续分享深度学习算法相关改进方法。有兴趣的朋友可以关注一下我，有问题可以留言或者私聊我哦

PS：该方法不仅仅是适用改进YOLOv5，也可以改进其他的YOLO网络以及目标检测网络，比如YOLOv7、v6、v4、v3，Faster rcnn ，ssd等。

最后，有需要的请关注私信我吧。关注免费领取深度学习算法学习资料！