论文精讲 | 基于昇思的等夹角向量基(EBVs)分类性能显著优于传统分类器详解

**作者:**李锐锋

论文标题

Equiangular Basis Vectors

论文来源

CVPR 2023

论文链接

https://arxiv.org/abs/2303.11637

代码链接

https://github.com/msfuxian/EBV

昇思MindSpore作为一个开源的AI框架,为产学研和开发人员带来端边云全场景协同、极简开发、极致性能,超大规模AI预训练、极简开发、安全可信的体验,2020.3.28开源来已超过500万的下载量,昇思MindSpore已支持数百+AI顶会论文,走入Top100+高校教学,通过HMS在5000+App上商用,拥有数量众多的开发者,在AI计算中心,金融、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景逐步广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下,基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%,连续两年进入全球第二,感谢CAAI和各位高校老师支持,我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究,持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟MindSpore合作,一起推动原创AI研究,昇思MindSpore社区会持续支撑好AI创新和AI应用,本文是昇思MindSpore AI顶会论文系列第17篇,我选择了来自南京理工大学计算机科学与工程学院的魏秀参老****师团队的一篇论文解读,感谢各位专家教授同学的投稿。

昇思MindSpore旨在实现易开发、高效执行、全场景覆盖三大目标。通过使用体验,昇思MindSpore这一深度学习框架的发展速度飞快,它的各类API的设计都在朝着更合理、更完整、更强大的方向不断优化。此外,昇思不断涌现的各类开发工具也在辅助这一生态圈营造更加便捷强大的开发手段,例如MindSpore Insight,它可以将模型架构以图的形式呈现出来,也可以动态监控模型运行时各个指标和参数的变化,使开发过程更加方便。

本文想要研究的问题是大类别的分类问题,比如10万或者100万个类别这样的分类问题。像ResNet-50这样的网络,处理这样的分类问题最后一层的线性层需要2048×100000或者2048×1000000的参数量,这会使fc比前面的特征提取层的参数量还要大。

另一方面,一般的分类问题选择one-hot向量作为标签,这可以理解为任意两个向量夹角都是90度的正交基。而在2021年年底,数学年刊上有一篇文章讲述了当维度D趋向于无穷大的时候,对于给定的角度,上述的等夹角的直线的数量,和D成线性关系(参考 Equiangular lines with a fixed angle)。

所以如果是完全等夹角的话,类别量一大,D也必须很大。所以本文开始的思路是希望在角度上做一些优化,当角度大概约束在83-97(轴对称)的时候,5000维就能容纳10万个类别的基,同时不会对分类的性能产生很大影响,对应的数据集也已开源。另外,当夹角为0时,空间中就存在无数这样的基向量,所以一定会成立,但是有关α,空间维度以及这样的向量的数量,数学上还没有固定解,只在一些特殊情况下有解,可参考《Sparse and Redundant Representations – From Theory to Applications in Signal and Image Processing》一书。分类任务代码部分按照昇思MindSpore官方文档提供的样例,仅需修改数据集就能完成,非常方便。

01

研究背景

模式分类领域旨在将输入信号分配到两个或多个类别中。近年来,深度学习模型在处理图像、视频、音频、文本和其他数据方面带来了突破性进展。在硬件快速提升的帮助下,如今的深度学习方法可以轻松地拟合一百万张图像,并克服了以往模式分类任务中手工特征质量较差的障碍。许多基于深度学习的方法如雨后春笋般涌现,并被用于解决各种场景和设置中的分类问题,如遥感、少样本学习、长尾问题等。

图1表述了一些典型的分类任务的范式。目前,大量的深度学习方法采用可训练的全连接层与softmax相结合作为分类器。然而,由于类别的数量是固定的,这样的分类器的可扩展性较差,分类器的可训练参数量也会随着类别数量的增加而上升。例如,全连接层图片的内存消耗随着类别数N的增长而线性增加,全连接层和d维特征之间的矩阵乘法的计算成本也随之增大。而一些基于经典度量学习的方法则必须考虑所有的训练样本并设计正/负样本对,而后为每个类别优化一个类中心,这对于大规模数据集来说需要大量的额外计算量,尤其是对于预训练任务而言。

图片

图 1典型的分类范式与EBVs之间的比较

1、以k-路全连接层和softmax结束的分类器。当添加更多类别时,分类器的可训练参数会程线性增长。

2、以“Triplet embedding”作为经典度量学习方法的样例,当给定M 张图像时,其复杂度为图片 ,当增加一个有图片个样本的新类别时,复杂度会增长到图片

3、我们提出的EBVs。EBVs为不同的类别预先定义了固定的归一化嵌入。网络的可训练参数不会随着类别数量的增加而改变,而计算复杂度只从图片 增长到图片

02

团队介绍

Visual Intelligence & Perception (VIP) Group,负责人为魏秀参教授。团队在相关领域国际顶级期刊如IEEE TPAMI、IEEE TIP、IEEE TNNLS、IEEE TKDE、Machine Learning Journal、《中国科学:信息科学》等,及国际顶级会议如NeurIPS、CVPR、ICCV、ECCV、IJCAI、AAAI等发表论文五十余篇,相关工作获得DIGIX 2023、SnakeCLEF 2022、iWildCam 2020、iNaturalist 2019、Apparent Personality Analysis 2016等计算机视觉领域国际权威赛事共7项世界冠军。

03

论文简介

在本文中,我们提出了等夹角向量基(EBVs)来取代深度神经网络分类任务中常用的分类器。EBVs为所有类别预先定义了一个固定的归一化基向量,这些基向量两两间的夹角相同且尽可能的被约束为相互正交。具体来说,在一个d维的单位超球中,对于分类任务中的每个类别,EBVs在超球的表面对其定义一个d维的归一化嵌入,我们把这些嵌入称为基向量。每个基向量对的球面距离满足一个定义的规则,它使任意两个基向量之间的关系尽可能地接近正交且具有相似的夹角。为了使深度神经网络的可训练参数随类别数的增长而保持恒定,我们随后基于Tammes Problem和Equiangular Lines这两个数学问题,给出了EBVs的定义。

首先我们给出EBVs的具体定义。我们知道,d个正交的向量基可以构建一个d维的欧式空间图片 ,同时,若两个向量处于正交的关系,在数学中我们认为这两个向量没有相关性。然而,这样的d维空间最多容纳d个向量基,即容纳的类别量图片,无法达到大规模分类减少内存空间的要求。因此,我们需要优化不同向量基间的角度关系。假设在单位超球体图片 中,取 图片 ,定义任意两个向量基的夹角范围为图片 。对于给定的类别量N ,找到符合条件的图片的最小值;或对于可接受的图片,找到空间图片中类别量N的取值范围,即完成了EBVs的定义。其数学表达可以概述为找到符合条件的等夹角向量基集合图片 ,使其满足:

图片

其中,图片图片图片图片图片代表欧几里得范数。而后假设图片为单位球面距离的度量函数,则对于任意一个待查询特征向量图片 ,其于向量基图片的相关性则可以表示为:

图片

其中,图片代表了向量基集合图片中的N个基向量。图片则代表了所有待计算基向量的下标,同样,图片

而后我们给出EBVs的生成方式。我们随机初始化一个矩阵图片用以代表等夹角向量基集合图片,其中d代表每个基向量的维度,N代表需要的基向量的个数。而后对图片中每一个d维的基向量进行归一化,这样,图片中任意两个基向量图片图片可以表示为图片图片图片图片, 图片 。如此,图片图片的球面距离就可以用余弦相似度替代,表示为图片。在随机梯度下降过程中,通过梯度裁剪的方式截断满足图片的任意基向量对的梯度,同时优化剩余的基向量对,整体优化函数可以表示为:

图片

即若图片 ,则截断对应的梯度,不再进行优化。

最后我们给出EBVs用于分类任务时的优化方法。假设N个类别中共包含图片个数据样本即其对应的标记为图片图片即代表数据,图片即代表对应标签。图片对应的特征向量可以表示为图片 ,其中图片代表一个特征提取器,通常可以理解为一个待优化的深度神经网络,而图片则表示该特征提取器的待优化参数。因此,数据图片对应的特征向量图片被估计为类别图片的概率可以表示为:

图片

其中,图片表示第J个类别权重图片的转置。在EBVs的生成过程中,已对集合图片中的每一个基向量图片做正则化得到图片,将其替代公式(4)中的类别权重图片,最后可以得到达到EBVs的目标函数:

图片

其中,图片代表图片对对应的特征向量图片做正则化,图片为超参数,用于降低优化难度。则优化目标最终被转换为最大化联合分布概率图片,其中图片代表连成函数,图片则代表图片通过特征提取器图片得到的特征向量被认为是类别图片的概率,则优化目标可以改写为最小化如下负对数似然函数:

图片

04

实验结果

我们在包括ImageNet-1K数据集上的分类任务、MS COCO数据集中的实例分割与目标检测任务、ADE20K数据集中的语义分割,以及大量下游分类任务中做了对比实验,在此我们仅以ImageNet-1K中的分类结果为例阐述方法的有效性。为了证明所提出的EBVs的有效性,我们对baseline的对比方法参考了TorchVision所提供的最先进的训练方法。我们提供了三种不同的训练设置:

1、设置A0代表ResNet原文中的训练设定;

2、设置A1代表使用余弦衰减学习率调度器并采用warmup的训练策略,同时使用weight decay、TrivialAugment等增强策略;

3、设置A2代表在A1的基础上添加了1abel-smoothing,cutmix与mixup这三种策略。

如表1所示,实验结果表明EBVs在相同的实验设置下,对比传统的分类器均有较大的提升。

表1 在ImageNet-1K验证集上的对比结果

图片

05

总结与展望

本文提出了用于分类任务的新范式:等夹角向量基(EBVs)。在深度神经网络中,模型通常以带有softmax的k-路全连接层处理分类任务,这些方法的学习目标可以概括为将学到的特征表示映射到样本的标签空间。而在度量学习方法中,学习目标可以概括为学习一个映射函数,将训练数据点从原始空间映射到一个新的空间,并使该空间中同类样本点更接近,不同类的点距离则变得更远。与以上方法不同,EBVs为所有类别预先定义了一个固定的归一化基向量。在预定义的过程中,这些基向量两两间的夹角相同且尽可能的被约束为相互正交。在训练阶段,这些基向量就直接作为不同类别样本的固定映射目标,EBVs的学习目标也转变为最小化图像特征嵌入和预定义基向量的球面距离。验证阶段,由于每个类别绑定了一个固定的基向量,因此可以通过图像的特征嵌入与所有基向量的球面距离的最小值来判断图像的标签。由于是分类问题,因此按照MindSpore官方的样例代码就能非常快速的完成训练。

90后程序员开发视频搬运软件、不到一年获利超 700 万,结局很刑! 谷歌证实裁员,涉及 Flutter、Dart 和 Python 团队 中国码农的“35岁魔咒” Xshell 8 开启 Beta 公测:支持 RDP 协议、可远程连接 Windows 10/11 ​MySQL 的第一个长期支持版 8.4 GA 开源日报 | 微软挤兑Chrome;阳痿中年的福报玩具;神秘AI能力太强被疑GPT-4.5;通义千问3个月开源8模型 Arc Browser for Windows 1.0 正式 GA Windows 10 市场份额达 70%,Windows 11 持续下滑 GitHub 发布 AI 原生开发工具 GitHub Copilot Workspace JAVA 下唯一一款搞定 OLTP+OLAP 的强类型查询这就是最好用的 ORM 相见恨晚
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/4736317/blog/11072544