谷歌提出一种新的视觉架构:V-MoE,测试准确率高达90.35%

我们知道稀疏门控混合专家网络(MOE)在自然语言处理中表现出良好的可伸缩性。然而,在计算机视觉中,几乎所有的性能网络都是"密集的",也就是说,每个输入都由每个参数处理。

Google 最近提出了一个Vision MoE(V-MoE),它是 Vision Transformer 的一个稀疏版本,具有可扩展性,可以与最大的密集网络相媲美。图片

论文地址:https://arxiv.org/pdf/2106.05974.pdf Github:https://github.com/google-research/vmoe

当应用于图像识别时,V-MoE与最先进网络的性能相匹配,同时在推理时只需要一半的计算量。

此外,Google 还提出了一种路由算法的扩展,该算法可以在整个批次中对每个输入的子集进行优先级排序,从而实现自适应的每图像计算。这允许 V-MoE 在测试时权衡性能并平滑计算。

V-MoE 在缩放视觉方面非常有潜力,在 ImageNet 上训练了一个15B参数模型,该模型达到 90.35%。

干货推荐

架构描述

图片

V-MoE 由 ViT 块组成。我们将 MLP 替换为稀疏活化的MLP混合物。每个MLP(专家)存储在单独的设备上,并处理固定数量的令牌。这些令牌在设备专家之间的通信使用容量比:稀疏MoE层每个设备接收12个令牌。

实验结果

我们首先在JFT-300M(一个大型图像数据集)上对模型进行一次预训练。下面的左图显示了我们对各种型号的预培训结果:从小型S/32到大型H/14。

然后,我们使用新的头部(模型中的最后一层)将模型转移到新的下游任务(如ImageNet)。我们探索了两种转移设置:要么在新任务的所有可用示例上微调整个模型,要么冻结预先训练的网络,并仅使用几个示例(称为少数镜头转移)调整新头部。

下图总结了我们在ImageNet的传输结果

图片

在这两种情况下,稀疏模型在给定的训练计算量(如ViT线上方的V-MoE线所示)下的性能明显优于密集模型,或者更快地实现类似的性能(如ViT线左侧的V-MoE线所示)。

为了探索视觉模型的局限性,我们在 JFT-300M 的扩展版本上训练了一个150亿参数的模型,该模型具有24个MoE层(共48个块)。这个巨大的模型——据我们所知是迄今为止最大的视觉模型——经过微调后,在ImageNet上达到了90.35%的测试精度,接近当前的最先进水平。

优先级路由

在实践中,由于硬件限制,使用动态大小的缓冲区效率不高,因此模型通常为每个专家使用预定义的缓冲区容量。一旦专家变得“满”,超出此容量的分配令牌将被丢弃并且不会被处理。因此,更高的容量会产生更高的准确性,但它们的计算成本也更高。

我们利用这种实现约束来使 V-MoE 在推理时更快。通过将总组合缓冲区容量降低到要处理的令牌数量以下,网络被迫跳过处理专家层中的一些令牌。该模型不是以某种任意方式选择要跳过的标记(就像以前的工作那样),而是学习根据重要性分数对标记进行排序,这样可以保持高质量的预测,同时节省大量计算。我们将这种方法称为批量优先级路由 (BPR),如下图所示。

图片

事实证明,删除正确的令牌对于提供高质量和更有效的推理预测至关重要。当专家容量减少时,普通路由机制的性能会迅速下降。相反,BPR 对低容量更为稳健。

图片

总体而言,我们观察到 V-MoE 在推理时非常灵活:例如,可以减少每个令牌选定专家的数量以节省时间和计算,而无需对模型权重进行任何进一步的训练。

结论

Google 已经使用稀疏条件计算来训练一些迄今为止最大的视觉模型,在表征学习和迁移学习方面显示出显著的改进。除了V-MoE之外,它还提出了批量优先路由,允许成功地重新调整模型稀疏性的用途,以引入关于输入的稀疏性,这可以在不进一步调整模型的情况下完成,从而允许通过稀疏条件计算重复使用经过训练的模型。

这只是视觉尺度条件计算的开始,扩展包括扩大专家数量、减少对数据的依赖性以及改进稀疏模型产生的表示的传输。与异构专家架构和条件可变长度路由相关的方向也应该是富有成效的。Google 期望稀疏模型缩放越来越重要,特别是在数据丰富的领域,如大规模多模态或视频建模。

技术交流

目前已开通了技术交流群,群友已超过1000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

  • 方式①、发送如下图片至微信,长按识别,后台回复:加群
  • 方式②、微信搜索公众号:机器学习社区,后台回复:加群
  • 方式③、可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。
    在这里插入图片描述

おすすめ

転載: blog.csdn.net/m0_59596990/article/details/122521449