CVPR 2022 | UniDet:通用的多数据集目标检测

前言 论文提出了一种在多个大规模数据集上训练统一检测器的通用方法。使用特定于数据集的训练协议和损失,但与特定于数据集中的输出共享公共检测架构。与之前的工作相比,该方法不需要手动分类协调。
实验表明,本文学习的分类法在所有数据集中都优于专家设计的分类法。并且多数据集检测器在每个训练域上的性能与特定于数据集的模型一样好,并且可以推广到新的不可见数据集,而无需对它们进行微调。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中,可以获取对应的稿费哦。

QQ交流群: 444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

论文:https://arxiv.org/abs/2102.13086

代码:https://github.com/xingyizhou/UniDet

创新思路

单个数据集在图像域和标签表中都受到限制,不能产生通用识别系统。那么是否可以通过统一不同的检测数据集来缓解这种限制吗?

一般来说,不同的数据集通常在不同的训练损失、数据采样策略和调度下进行训练,每个数据集训练具有单独输出的单个检测器,并对每个数据集应用特定于数据集的监督,训练模拟使用公共网络训练并行数据集特定模型。
本文的一个核心挑战是将不同的数据集集成到一个通用的分类法中,并训练一个检测器,该检测器可以对一般目标而不是特定于数据集的类进行推理。

为此,作者提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。利用来自不同数据集的类似概念的目标检测器对类似的新目标进行检测。这使得可以定义跨数据集合并概念的成本,并完全自动地优化通用分类法。本文的优化使用新的0-1整数规划公式,联合发现了统一分类法、从该分类法到每个数据集的映射以及统一分类法上的检测器。基于该统一分类法训练的目标检测器具有来自所有训练数据集的大量自动构建的概念标签表。

本文的主要贡献

1、提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。

2、证明了在不同的训练集上训练的模型在无需再训练的情况下推广到新的领域,并优于单数据集模型。

方法

训练多数据集检测器

本文旨在具有标签空间的K个数据集上训练单个检测器M,以及数据集特定的训练目标。只要不尝试合并不同数据集之间的标签空间,就可以像单独训练多个数据集特定检测器一样训练统一检测器。

这可以被认为是并行训练K个数据集特定检测器,同时共享它们的主干架构。每个数据集特定架构与公共主干共享除最后一层之外的所有层。每个数据集最后都使用自己的分类层。称之为分区检测器。通过最小化K个数据集的特定损失,在所有数据集上训练分区检测器:

虽然分区检测器学习检测所有类,但它仍产生不同的数据集特定输出。

学习统一标签空间

考虑多个数据集,每个数据集都有自己的标签空间,目标是共同学习一个用于所有数据集的公共标签空间L,并定义这个公共标签空间与数据集特定标签Tk之间的映射。每个关节标签c最多映射到一个数据集特定标签ˆc。此外,每个数据集特定的标签精确匹配一个关节标签:Tk1。

然后,给定一组分块检测器输出,对于边界框,通过简单平均常见类的输出来构建联合检测得分di:

从这个联合检测器,恢复特定于数据集的输出。目的是找到一组映射T ,并隐式定义一个联合标签空间L,使联合分类器的性能不下降。

对于特定的输出类c,让Lc是一个损失函数,衡量合并标签空间di及其重投影ˆdki与单个盒子i上原始不相交的标签空间dki的质量。目的是在给定映射上的布尔约束条件下,在所有检测器输出上优化这种损失:

公式6混合了L上的组合优化和T上的0-1整数程序。但是,有一种简单的重新参数化方法可以实现高效的优化。不直接对标签集L和变换T进行优化,而是对T的潜在列值进行组合优化。优化的目标简化为

损失函数

失真度衡量的是分区检测器和统一检测器之间检测得分的差异:

给定一个重投影的特定于数据集的输出,可以测量每个输出类c在Dk的验证集上的平均精度:

这两个损失函数允许训练一个分区检测器,并在训练后合并其输出空间。

实验

表1。多数据集训练策略的有效性。

图3。对学习到的统一标签空间进行采样。

表2.特定于数据集的检测器vs分区检测器。

表3.统一标签空间的评估。

表5所示。统一检测器与分区检测器。

表6所示。Cross-dataset评估。

结论

论文提出了一个简单的方法来训练跨多个数据集的单一目标检测器,以及一个公式来自动构建一个统一的分类法。得到的检测器可以部署在新的领域,而无需额外的知识。

本文的标签空间学习算法目前只使用视觉线索,结合语言线索作为辅助信息可以进一步提高性能。


搞了个QQ交流群,打算往5000人的规模扩展,还专门找了大佬维护群内交流氛围,大家有啥问题可以直接问,主要用于算法、技术、学习、工作、求职等方面的交流,征稿、公众号或星球招聘、一些福利也会优先往群里发。感兴趣的请搜索群号:444129970

加微信群加知识星球方式:关注公众号CV技术指南,获取编辑微信,邀请加入。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中,可以获取对应的稿费哦。

其它文章

ECCV 2022 | MorphMLP:一种有效的用于视频建模的MLP类架构

CVPR 2022 | BatchFormerV2:新的即插即用的用于学习样本关系的模块

CVPR 2022|RINet:弱监督旋转不变的航空目标检测网络

ECCV 2022 | 新方案: 先剪枝再蒸馏

ECCV 2022 | FPN:You Should Look at All Objects

ECCV 2022 | ScalableViT:重新思考视觉Transformer面向上下文的泛化

ECCV 2022 | RFLA:基于高斯感受野的微小目标检测标签分配

Pytorch转onnx详解

Pytorch 加速数据读取

各种神经网络层和模块的计算量和参数量估计总结

迁移科技-工业机器人3D视觉方向2023校招-C++、算法、方案等岗位

文末赠书 |【经验】深度学习中从基础综述、论文笔记到工程经验、训练技巧

ECCV 2022 | 通往数据高效的Transformer目标检测器

ECCV 2022 Oral | 基于配准的少样本异常检测框架

CVPR 2022 | 网络中批处理归一化估计偏移的深入研究

CVPR2022 | 自注意力和卷积的融合

CVPR2022 | 重新审视池化:你的感受野不是最理想的

CVPR2022 | A ConvNet for the 2020s & 如何设计神经网络总结

计算机视觉中的论文常见单词总结

计算机视觉中的高效阅读论文的方法总结

猜你喜欢

转载自blog.csdn.net/KANG157/article/details/126688200
今日推荐