【第37篇】EdgeViTs: 在移动设备上使用Vision Transformers 的轻量级 CNN

EdgeViTs: 在移动设备上使用Vision Transformers 的轻量级 CNN

image-20220512130345944

摘要

基于自我注意的模型,例如视觉转换器 (ViT),已成为计算机视觉中卷积神经网络 (CNN) 的一种极具竞争力的架构替代方案。尽管越来越强大的变体具有越来越高的识别精度,但由于自我注意的二次复杂性,现有的 ViT 通常对计算和模型大小有要求。尽管先前 CNN 的几个成功的设计选择(例如,卷积和分层多级结构)已重新引入最近的 ViT,但它们仍然不足以满足移动设备的有限资源需求。这促使最近尝试基于最先进的 MobileNet-v2 开发轻型 ViT,但仍然存在性能差距。在这项工作中,进一步推动这个研究不足的方向,我们引入了 EdgeViTs,这是一个新的轻量级 ViT 系列,它首次使基于注意力的视觉模型能够在准确度之间的权衡中与最好的轻量级 CNN 竞争和设备上的效率。这是通过引入基于自注意力和卷积的最佳集成的高成本效益的局部-全局-局部 (LGL) 信息交换瓶颈来实现的。对于设备专用的评估,我们不依赖于不准确的代理,如 FLOP 或参数的数量,而是采用一种直接关注设备延迟和能源效率的实用方法。与最先进的高效 CNN 和 ViT 相比,在移动硬件上的精度-效率权衡方面,图像分类、对象检测和语义分割的广泛实验验证了我们的 EdgeViT 的高效率。具体来说,我们表明,当考虑准确性-延迟和准确性-能量权衡时,我们的模型是帕累托最优的,在几乎

猜你喜欢

转载自blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/124730330