ICCV 2023 | 沈春华团队提出SegPrompt:提示学习增强开放世界分割

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割和Transformer】交流群

作者:李太白(源:知乎,已授权)| 编辑:CVer公众号

https://zhuanlan.zhihu.com/p/651858313

8b2eb3a8b37a29c287ccf21063c2094b.jpeg

这篇文章是由浙大和阿德莱德大学合作,在2023.8.12上传到arxiv上的文章(已收录ICCV 2023),创新性强,解决的问题也非常有挑战性,值得一读。

在CVer公众号后台回复:SegPrompt,可下载本论文和代码

SegPrompt: Boosting Open-world Segmentation via Category-level Prompt Learning

代码:https://github.com/aim-uofa/SegPrompt

论文:https://arxiv.org/abs/2308.06531

背景

之前Open-World Entity Segmentation这篇文章提出了实体分割的概念,只注重分割对象的质量,而不关注对象的类别,在Photoshop这类图像编辑的软件中有着很好的用处。但是对于open-world instance segmentation这个任务来说还远远不够,需要解决在开放世界中未见过的物体分割,以及对分割的物体生成标签。

为此,本文提出了包含Prompt learning机制的分割网络,在保持分割能力的同时,运用到类别信息。

本文的贡献

  1. 引入Prompt learning机制,它有效地使用类别信息来改进分割结果

  2. 第一个关注开放世界分割中的长尾效应

  3. 类别级的提示信息确实能够提升分割质量,能扩展到少样本的分割

d138ff2e8af16c75bf0682b2ae0bd9a2.jpeg

文中将物体分为Known(训练集中有标注)、Seen (训练集中无标注,测试集有标签,看到了但不知道是啥)、Unseen(训练集没出现过,测试集中有标注,开放世界分割较常出现的问题)

方法

总览

59b3775ee38f9f6c82d4d136c05db535.jpeg

模型主要为三个分支,Prompt Extraction Branch,Prompt-based Prediction Branch, Class-agnostic Branch。Prompt Extraction Branch以提示的形式提供类别级实例特性,然后Prompt-based Prediction Branch使用这些提示来预测相应的每类实例掩码,除了少数与提示相关的嵌入外,所有参数都与类别无关的分割网络共享。

Class-agnostic Baseline Branch

采用Mask2Former作为基础的框架,可参考Mask2Former

fc72d6d26081fe76558aa41f8a14f5dd.jpeg 6b5e0a39b2bb683a109020f09f1f6fc5.jpeg

Prompt Extraction Branch

a7149f898f97326356c8c13ec9741860.jpeg

为了提取相关的prompt特征p ,首先经过一个example masked attention模块,与masked attention不同它增加了给定mask,因此它聚合了给定mask的信息,能够使利用提取的prompt分割未见过的物体(这块有点疑问)

f75bf72bae26de24b9c48de8477edca6.png

然后经过self-attention 做优化

再使用掩码损失来监督每个示例查询,即Example Supervision

最后更新prompt特征

1ecb2df4c14d99fd6810c2cbd432f7b3.jpeg

Prompt-based Prediction Branch

255932b922b3c76e9044e879ef135bdd.jpeg

这个分支主要是利用提取的prompt并结合类别信息进行预测掩码

59367c49c148bbb8479ffbcd891f69da.png

结果

019df91d2829b2a8b5cb62a94511a05c.jpeg

从最后的结果看,SegPrompt能大大提升在开放世界中的分割能力

4837ecfc071f1418ed7062f4d28dc056.jpeg

虽然本文中一些细节还未完全理解,但是本文的创新点和结果是显著的,尤其是对未见过物体的识别。

在CVer公众号后台回复:SegPrompt,可下载本论文和代码

点击进入—>【图像分割和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
图像分割和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看5721a6734bc9a7a269e105b0551423d2.gif

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/132551068
今日推荐