Augmented Shortcuts for Vision Transformers
论文地址:
https://arxiv.org/abs/2106.15941
主要工作:
主流 Transformer 模型的设计采用了深度体系结构,随着深度的增加,特征多样性会不断减少,即特征崩溃。
本文从理论上分析了特征崩溃现象,并研究了这些 Transformer 模型中的 shortcut 与特征多样性之间的关系。
然后,我们提出了一种增强的 shortcut 方案,该方案在原始 shortcut 上并行插入具有可学习参数的附加路径。
为了节省计算成本&#