视觉变压器因其较高的模型性能而取得了巨大的成功。然而，它们显著的性能伴随着沉重的计算成本，这使得它们不适合实时应用。在本文中，我们提出了一种被称为高效振动的高速视觉变压器。我们发现，现有的变压器模型的速度通常受到内存低效操作的限制，特别是在MHSA中的张量重塑和元素级函数。因此，我们设计了一个新的具有夹层布局的构建块，即在有效的FFN层之间使用单一内存绑定的MHSA，在提高内存效率的同时提高了信道通信。此外，我们发现注意力图在头部之间有很高的相似性，从而导致计算冗余。为了解决这个问题，我们提出了一个级联组注意模块，赋予不同的完整特征分割的注意头部，这不仅节省了计算成本，而且提高了注意多样性。综合实验表明，效率优于现有的有效模型，在速度和能力之间取得了良好的权衡

以yolov5 7.0版本进行改进

1.efficientvit.py文件，添加如下代码：

from typing import Dict, List, Tuple, Union, Optional, Type, Callable, Any
from inspect import

YOLOV5/YOLOV8改进：CVPR 2023 | 基于级联分组注意力模块的全新实时网络架构模型 EfficientViT，有效涨点

以yolov5 7.0版本进行改进

1.efficientvit.py文件，添加如下代码：

猜你喜欢