仅50张图片训练数据的AI分类技术PK，阿里拿下ECCV 2020竞赛冠军

出品 | AI科技大本营（ID:rgznai100）

近日，两年一度的世界计算机视觉领域顶会ECCV 2020的各项挑战赛结果出炉，在图像分类赛中，阿里安全的高效AI分类技术超越三星、深兰科技、同济大学等国内外多支队伍的同类技术获得冠军。目前，阿里安全团队提出的“A visual inductive priors framework for data-efficient image classification”也已被ECCV 2020 Workshop VIPriors接收。

人工智能的崛起以海量的带标签训练数据作为基石，海量数据可以保障AI模型的效果，但是数据的收集和标注需要昂贵的人力成本，进行训练则需要消耗大量计算资源。ECCV 2020分类比赛的难题是，与其他比赛动辄使用十几万的数据不同，ECCV 2020的分类比赛共有1000个类别，每个类别仅有50张图片作为训练数据。比赛要求选手在不使用任何预训练模型和额外数据情况下，从零训练模型。这意味着训练难度巨大，几乎是不可能完成的任务。

不过，这也正是ECCV 2020为了考验参赛队伍如何对来之不易的训练数据进行充分利用，促使AI神经网络进行高效学习，降低神经网络训练过程中的人力和计算资源消耗，也就是说，参赛队伍要打造一个高效能、低成本的分类AI。

阿里安全图灵实验室算法工程师夜清介绍，阿里安全智能算法团队从数据增强、神经网络结构、目标函数三大技术方向进行了突破。

数据增强通过向训练数据中增加转换或者人工增加训练数据等操作来丰富训练样本。在阿里安全的数据增强方案中，训练时将从训练数据中随机抽取两张图像A和B，使用自动增强方法预处理，然后对裁剪出B中一块方形图像块并贴在A中，组成拼接图像。相比如现有的图像增强方法，他们的方案能够最大程度上丰富训练样本，充分利用每一张图像。

在网络模型的选择上由于训练样本样本较少和缺乏预训练模型带来的先验性知识，他们发现现有的backbone都无法很好地完成特征提取任务，且容易发生过拟合，性能较为有限。他们总结出显著性特征、平移不变性和正则化能力是提升分类性能的关键。

显著性特征是每个类别有特有的能够显著区别其他类别的特征，如老虎的花纹、狐狸的脸部以及长长的尾巴的等等。而神经网络是不具备平移不变性的，因此图像中的目标稍有移动模型的准确率就会有明显的下降。另外，由于训练数据缺乏，模型极易发生过拟合，需要使用一些正则化的方法来缓解。

基于上述思路，他们设计并实现了一种三分支的残差网络结构DSK-net（Dual Selective Kernel network），在DSK-net中，他们加入了显著性特征提取模块来提升特征提取的效果，加入抗锯齿模型来提升模型的平移不变性，将二分支网络结构基础上新增一个分支，提升模型的正则化能力。而实验结果表明，他们提出的DSK-net在少量数据上的学习效果要远优于目前的一些主流网络结构，如ResNeXt、EfficientNet，以及最新的ResNeSt等。

目标函数也叫损失函数，是模型训练过程中的优化的目标，可以指导模型按照其所设定的方向收敛，模型拟合的越好，其值应该越小。在数据量较少的情况下，一般的分类损失函数容易造成模型过拟合，另外数据中的噪声会对模型也会对模型有较大误导。

因此，他们设计了一种基于正类的的损失函数，可以从多个方向指导模型收敛，缓解过拟合，消除数据噪声对模型带来的误导。在损失函数中，他们发现训练数据的1000个类别包含着明确的层次关系，如猫、豹、老虎同属于“动物-哺乳动物-猫科动物”，卡车、轿车同属于“车辆-机动车”等，基于此，他们构造了一个多层树状语义结构，对类别间的语义关系进行建模，并用该树状结构指导分类器进行更好地理解和学习。

阿里安全图灵实验室资深算法专家华棠认为，高效AI分类技术极大程度上解决了计算资源消耗和数据标注的人力成本问题，为自动驾驶、物体识别、智慧城市等领域提供了新的思路和方法。

在线下新零售场景中，对于新上架的一件商品，原来AI工程师们需要从不同的角度、光照条件和位置拍摄、收集几千甚至上万张图片并进行标注，用于训练模型，才可以保证AI模型能充分学习到该商品的特征。而在阿里安全提出的方案下，商品图片数量缩减到50张以下，就能保证模型的识别能力。

“我们的方法还可以与自监督有效的结合，在学习更好的数据表征基础上，指导模型高效学习，获得更好的识别能力。”夜清说。

目前，阿里安全这项基于小规模图像的高效AI技术已应用在知识产权商标识别、通用商品识别和动植物保护等场景中。这类场景类别数量多，每个类别样本数量较少，而预训练任务和目标任务存在差异，预训练模型可能损害目标任务的准确率，这个方案恰恰能够解决上述问题。

“以某知名品牌运动鞋上新为例，一段时间内我们仅能获得该产品不同的配色以及商品几个不同角度的图片。在仅有少量商品展示图的情况下，通过高效AI方案，我们在新产品问世的极短时间内实现新款商品识别能力的覆盖，降低新产品被山寨和假冒的风险。”华棠说。

阿里安全图灵实验室资深算法专家薛晖介绍，疫情期间，突发口罩佩戴问题使得大量人脸门禁失效，很多小区需要摘下口罩刷脸，带来不必要的健康风险，高效AI分类技术的应用大大降低了模型初始化的数据需求量，帮助快速训练好模型，解决了戴口罩的人脸识别问题。

今年3月，阿里率先提出新基建的新一代安全架构和安全基建，并开始打造数字基建安全样板间。作为新一代安全架构安全技术层的核心AI技术，目前高效AI方案对内已赋能阿里多个业务场景，如淘宝视频、淘宝直播、优酷等平台的知识产权保护，为数字基建的安全建设提供样本参考，对外则通过绿网直接服务大中小企业。



推荐阅读

仅50张图片训练数据的AI分类技术PK，阿里拿下ECCV 2020竞赛冠军

猜你喜欢