腾讯提结合ACNet进行细粒度分类，效果达到最新SOTA | CVPR 2020 - 代码天地

腾讯提结合ACNet进行细粒度分类，效果达到最新SOTA | CVPR 2020

其他 2020-03-17 11:06:46 阅读次数: 0

作者 | VincentLee
来源 | 晓飞的算法工程笔记

细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支，由于类别间的相似性非常大，一般人比较难区分，所以是个很有研究意义的领域。受神经树研究的启发，论文设计了结合注意力卷积的二叉神经树结构(attention convolutional binary neural tree architecture, ACNet)用于弱监督的细粒度分类，论文的主要贡献如下：

提出结合注意力卷积的二叉神经树结构ACNet用于细粒度分类，在树结构的边上结合了注意力卷积操作，在每个节点使用路由函数从而定义从根节点到叶子节点的计算路径，类似于神经网络。这样的结构让算法有类似于神经网络的表达能力，以及能够从粗到细的层级进行特征学习，不同的分支专注于不同的局部区域，最后结合所有叶子节点的预测值进行最终的预测；
添加attention transformer模块来加强网络获取关键特征进行准确分类；
在三个数据集CUB-200-2011、Stanford Cars和Aircraft上达到了SOTA。

注意力卷积的二叉神经树

ACNet包含4个模块，分别是主干网络(backbone network)、分支路由(branch routing)、attention transformer和标签预测(label prediction)，如图2所示。将ACNet定义为，为树状拓扑结构，为树边的操作集。论文使用满二叉树，为节点，为边，对于树深，共节点，边。每个节点为路由模块，决定下一个计算节点，边采用attention transformer进行操作。另外，满二叉树采用了非对称结构，例如左边使用两个transformer模块，右边使用一个transformer模块，这样有利于提取不同尺寸的特征

架构

Backbone network module

由于细粒度类别的关键特征都是高度局部的，需要使用相对较小的感受域来提取特征，因此主干网络使用截断的VGG-16网络，输入改为

Branch routing module

分支路由用来决定子节点的选择，结构如图2b所示， -th层的 -th路由模块由卷积和global context block组成

global context block的大概结构如上图a所示，来自GCNet的论文中。在context modeling和fusion步骤使用了simplified NL block，在transform步骤使用了SE block，这个模块能够很好地结合上下文信息来提取特征，最后使用global average pooling、element-wise square-root、L2正则化以及sigmoid激活的全连接层输出标量。

假设分支路由模块输出样本到右边节点的概率为，则输出到左边节点的概率为，概率越大的节点对最终结果的影响越大。

Attention transformer

Attention transformer模块用于加强网络获取关键特征的能力，在卷积后面插入结构如图2c所示的attention模块，该模块的旁路输出一个大小为的channel attention map对输入特征进行加权。

Label prediction

对于ACNet的每个叶子节点，用标签预测模块来预测目标的类别，为目标从根节点到k层第i个节点的累计概率，预测模块由卷积层、max pooling层、L2归一化层、全连接层和softmax层组成，通过求和所有的叶子节点的预测结果和路径累计概率的乘积得到最终的预测。

最终的预测结果的各项和为1，论文对其进行了证明，有兴趣的可以去看看，主要基于叶子节点的累计概率和为1，各叶子节点的预测结果和也为1。

训练

Data augmentation

在训练阶段，使用裁剪和翻转操作进行数据增强，首先将图片缩放至短边512像素，然后随机裁剪到，随机进行翻转。

Loss function

ACNet的损失函数由两部分组成，分别为叶子节点预测产生的损失以及最终结果产生的损失。为树高，为GT，为最终预测结果的负对数似然损失，为第个叶子预测结果的负对数似然损失。

Optimization

主干网络使用在ILSVRC上预训练的模型，使用"xavier"进行所有卷积层的随机初始化，整个训练过程包含两阶段，第一阶段固定主干网络训练60周期，第二阶段则使用小学习率对整个网络进行200周期的fine-tune。

实验

训练共需要512G内存，8张V100，下面的实验主要跟弱监督的细粒度算法进行对比，即不需要额外的标注的细粒度算法。

CUB-200-2011 Dataset

Stanford Cars Dataset

Aircraft Dataset

Ablation Study

Effectiveness of the tree architecture

如图5所示，使用树状结构能够显著提升准确率，使用Grad-CAM产生heatmap来对叶子节点对应的响应区域进行可视化，发现不同的叶子节点关注的特征区域各不一样。

Height of the tree

Asymmetrical architecture of the tree

论文对比左右路径的attention transformer数的对称性对识别的影响

Effectiveness of the attention transformer module

如图5所示，attention transformer模块能够有效地提升模型的准确率。

Components in the branch routing module

论文发现不同的分支路由模块关注的特征区域也不一样，图6的可视化结果分别为图2的R1、R2和R3节点使用Grad-CAM得到的响应区域。

结论

论文提出了结合注意力卷积的二叉神经树进行弱监督的细粒度分类，在树结构的边上结合了注意力卷积操作，在每个节点使用路由函数来定义从根节点到叶子节点的计算路径，结合所有叶子节点的预测值进行最终的预测，论文的创意和效果来看都十分不错。

论文地址：https://arxiv.org/abs/1909.11378

【end】

◆

原力计划

◆

《原力计划【第二季】- 学习力挑战》正式开始！即日起至 3月21日，千万流量支持原创作者！更有专属【勋章】等你来挑战

推荐阅读

你点的每个“在看”，我都认真当成了AI

AI科技大本营

发布了1359 篇原创文章 · 获赞 1万+ · 访问量 631万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/104852790

腾讯提结合ACNet进行细粒度分类，效果达到最新SOTA | CVPR 2020

腾讯提结合ACNet进行细粒度分类，效果达到最新SOTA | CVPR 2020

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

Google出品，EfficientNet在目标检测达到最新SOTA | CVPR 2020

商汤提基于贪心超网络的One-Shot NAS，达到最新SOTA | CVPR 2020

图像分类：CVPR2020论文解读

用于单图像超分辨率的对偶回归网络，达到最新SOTA | CVPR 2020

CVPR2020| 最新CVPR2020论文抢先看，附全部下载链接！

EfficientDet(BiFPN)（CVPR 2020）

无需3D运动数据训练，最新人体姿势估计方法达到SOTA | CVPR 2020

CVPR2020最新15篇论文开源代码

CVPR 2020 Oral｜效果超群的老照片“复活”算法

CVPR 2020 全部论文分类汇总和打包下载

CVPR2020论文解析：视频分类Video Classification

CVPR2020：点云分类的自动放大框架:PointAugment

CVPR 2020-Panoptic Segmentation

CVPR 2020-Object Detection

CVPR 2020-Instance Segmentation

CVPR 2020接受文章列表

CVPR 2020论文方向统计

2020 ECA-Net CVPR

细粒度图像分类论文研读-2020

重磅！ CVPR2020最新计算机视觉论文代码分类打包下载

细粒度图像分类--CVPR2017 & ICCV2017论文总结

基于轮廓调整的SOTA实例分割方法，速度达32.3fps | CVPR 2020

Deep Snake : 基于轮廓调整的SOTA实例分割方法，速度32.3fps | CVPR 2020

CVPR 2020 | 南大提伪监督目标定位方法，弱监督目标定位的最新SOTA

亮风台提出用完全可训练的图匹配方法，优于最新SOTA | CVPR 2020

旷视提Circle Loss，统一优化视角，革新深度特征学习范式 | CVPR 2020

旷视提双边分支网络BBN：攻坚长尾分布的现实世界任务 | CVPR 2020 Oral

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)