CVPR2022 | 利用域自适应思想，北大、字节跳动提出新型弱监督物体定位框架

作者丨朱磊

来源丨机器之心

将弱监督物体定位看作图像与像素特征域间的域自适应任务，北大、字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能。

物体定位作为计算机视觉的基本问题，可以为场景理解、自动驾驶、智能诊疗等领域提供重要的目标位置信息。然而，物体定位模型的训练依赖于物体目标框或物体掩模等密集标注信息。这些密集标签的获取依赖于对图像中各像素的类别判断，因此极大地增加了标注过程所需的时间及人力。

为减轻标注工作的负担，弱监督物体定位 (WSOL) 通过利用图像级标签（如图像类别）作为监督信号进行物体定位模型的训练，以摆脱训练过程对像素级标注的需求。该类方法大多采用分类激活图 (CAM) 的流程训练一个图像级特征分类器，而后将该分类器作用于像素级特征得到物体定位结果。但是图像级特征通常保有充足的物体信息，仅识别其中具有鉴别性的物体特征即正确分类图像。因此，在将该分类器作用于在所含物体信息并不充足的像素级特征进行物体定位时，最终得到的定位图往往只能感知到部分物体区域而非整个物体。

为解决这一问题，本文将基于 CAM 的弱监督物体定位过程看作是一个特殊的域自适应任务，即在保证在源图像级特征域上训练的分类器应用在目标像素域时仍具有良好的分类表现，从而使其更好的在测试过程中进行目标定位。从这一视角来看，我们可以很自然的将域自适应方法迁移到弱监督物体定位任务中，使得仅依据图像标签训练的模型可以更为精准的定位目标物体。

文章地址：https://arxiv.org/abs/2203.01714
项目地址：https://github.com/zh460045050/DA-WSOL_CVPR2022

目前，这项研究已被 CVPR2022 接收，完整训练代码及模型均已开源。主要由北大分子影像/医学智能实验室朱磊和字节跳动佘琪参与讨论和开发，北大分子影像/医学智能实验室卢闫晔老师给予指导。

方法

图 1 - 方法整体思想

弱监督物体定位实际上可以看作是在图像特征域（源域 S）中依据图像级标签（源域金标 Y^s）完全监督地训练模型 e(∙)，并在测试过程中将该模型作用于像素特征域（目标域 T）以获取物体定位热力图。总的来看，我们的方法希望在此过程中引入域自适应方法进行辅助，以拉近源域 S 与目标域 T 的特征分布，从而增强在模型 e(∙)对于目标域 T 的分类效果，因此我们的损失函数可以表示为：

其中 L_c 为源域分类损失，而 L_a 则为域自适应损失。

由于弱监督定位中源域和目标域分别为图像域和像素域，我们所面临的域自适应任务具有一些独有的性质：①目标域样本与源域样本的数量并不平衡（目标域样本是源域的 N 倍，N 为图像像素数）；②目标域中存在与源域标签不同的样本（背景像素不属于任何物体类别）；③目标域样本与源域样本存在一定联系（图像特征由像素特征聚合而得到）。为了更好地考虑这三个特性，我们进而提出了一种域自适应定位损失（DAL Loss）作为 L_a (S,T)以拉近图像域 S 与像素域 T 的特征分布。

图 2 - 弱监督定位中源域目标域的划分以及其在弱监督定位中的作用

首先，如图 2-A，我们将目标域样本 T 进一步分为三个子集：①“伪源域样本集 T^f”表示与源域特征分布相似的目标域样本；②“未知类样本集 T^u”表示类别在源域中不存在的 l 目标域样本；③“真实目标域样本集 T^t”表示其余样本。依据这三个子集，我们提出的域自适应定位损失可以表示为：

从上述公式可以看到，在域自适应定位损失中，伪源域样本被看作源域样本的补充而非目标域样本，以解决样本不平衡问题。同时，为了减少具有源域未知类别的样本 T^U 对分类准确率的干扰，我们仅使用传统自适应损失 L_d（如最大均值差异 MMD）拉近扩增后的源域样本集 S∪T^f 与真实目标域样本集 T^t 的特征分布。而这些被排除在域自适应过程之外的样本 T^u，可以被用作 Universum 正则 L_u，以保证分类器所定义的类别边界也能更好的感应到目标域。

图 2-B 也形象地展示了源域分类损失及域自适应定位损失的预期效果，其中 L_c 保证不同类别源域样本可以被正确区分，L_d 将源域目标域分布进行拉近，而 L_u 将类别边界拉近到未知标签目标域样本处。

图 3 - 整体工作流及目标样本分配器结构

我们提出，域自适应定位损失可以很便捷地将域自适应方法嵌入到已有弱监督定位方法中大幅提升其性能。如图 3 所示，在已有弱监督定位模型上嵌入我们的方法仅需要引入一个目标样本分配器（Target Sample Assigner）进行目标域样本子集的划分，该分配器通过记忆矩阵 M 在训练过程中实时更新未知类目标域样本集 T^u 与真实目标域样本集 T^r 的锚点，并以将二者和源域特征作为聚类中心进行三路 K 均值聚类，得到每个目标域样本所属的子集。最后依此样本子集，我们可以得到域自适应损失 L_d、以及 Universum 正则 L_u 并利用二者与源域分类损失 L_c 一起对训练过程进行监督，使得在保证源域分类准确性的情况下，尽可能的拉近源域与目标域特征，并减少未知类别样本影响。这样一来，在将该模型应用于目标域（也就是像素特征）进行物体定位时，最终生成的定位热力图的质量将得到显著提升。

实验

图 3 - 物体定位热力图及最终定位 / 分割结果

我们在三个弱监督目标定位数据集上验证了我们方法的有效性：

从视觉效果来看，由于保证了图像与像素特征域的分布一致性，我们的方法可以更为全面的抓取物体区域。同时，由于 Universum 正则关注了背景像素对分类器的影响，我们的方法生成的定位热力图可以更好的贴近物体边缘并抑制类别相关背景的响应程度，如水面之于鸭子。

从定量结果中可以也看到，在目标定位性能方面，我们的方法在三个数据上均取得了非常好的效果，尤其是在对于非细粒度目标定位的情况（ImageNet 和 OpenImages 数据集），我们的方法均取得了最优的定位性能。而对于图像分类性能方面，由于引入域自适应会导致源域准确度的损失，但通过借鉴多阶段策略利用一个附加的分类模型（仅使用 L_c 训练）生成分类结果即可解决域自适应带来的副作用。

此外，我们也具备很好的泛化性，可以兼容多类域自适应及多种弱监督目标定位方法，以提升定位性能。

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

CVPR2022 | 利用域自适应思想，北大、字节跳动提出新型弱监督物体定位框架

猜你喜欢