【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(12 月 5 日论文合集)(上)

一、分割|语义相关(12篇)

1.1 VideoSwap: Customized Video Subject Swapping with Interactive Semantic Point Correspondence

视频切换:交互式语义点对应的定制视频主题交换

https://arxiv.org/abs/2312.02087

当前基于扩散的视频编辑主要关注于通过利用各种密集对应来确保时间一致性和运动对齐的结构保持编辑。然而,当目标编辑涉及形状改变时,这些方法通常是无效的。为了进行具有形状变化的视频编辑,我们在这项工作中探索了定制的视频主题交换,我们的目标是用具有独特身份和潜在不同形状的目标主题替换源视频中的主要主题。与以前的方法,依赖于密集的对应关系,我们引入的VideoSwap框架,利用语义点对应关系,我们的观察,只有少量的语义点是必要的对齐主体的运动轨迹和修改其形状的启发。我们还介绍了各种用户点交互(例如,删除点和拖动点),以解决各种语义点对应。大量的实验证明了最先进的视频主题交换结果在各种现实世界的视频。

1.2 VLTSeg: Simple Transfer of CLIP-Based Vision-Language Representations for Domain Generalized Semantic Segmentation

VLTSeg:用于领域广义语义分割的基于片段的视觉语言表示的简单转换

https://arxiv.org/abs/2312.02021

领域泛化(DG)仍然是基于深度神经网络(DNN)的感知的一个重大挑战,其中由于照明,天气或地理位置的变化而发生领域转移。在这项工作中,我们提出了VLTSeg来增强语义分割中的域泛化,其中网络仅在源域上进行训练,并在看不见的目标域上进行评估。我们的方法利用了视觉语言模型固有的语义鲁棒性。首先,通过用CLIP和EVA-CLIP的预训练编码器替代传统的纯视觉主干作为迁移学习设置,我们发现在DG领域,视觉语言预训练的性能显著优于监督和自监督视觉预训练。因此,我们提出了一种新的视觉语言方法来进行领域广义分割,当在合成GTA5数据集上训练时,它将领域广义SOTA提高了7.6% mIoU。我们进一步展示了视觉语言分割模型的卓越泛化能力,在流行的Cityscapes-to-ACDC基准测试中达到了76.48%的mIoU,在撰写本文时的测试集上比之前的SOTA方法高出6.9%的mIoU。此外,我们的方法在Cityscapes测试集上显示出强大的域内泛化能力,表现为86.1%的mIoU,从而在提交时与当前排行榜上的前一个SOTA共享第一名。

1.3 UniGS: Unified Representation for Image Generation and Segmentation

UniGS:图像生成和分割的统一表示法

https://arxiv.org/abs/2312.01985

本文介绍了一种新的统一表示的扩散模型的图像生成和分割。具体来说,我们使用色彩映射表来表示实体级遮罩,解决了不同实体编号的挑战,同时将表示与图像RGB域紧密对齐。两个新的模块,包括位置感知调色板和渐进二分法模块,提出了支持我们的面具表示。一方面,位置感知调色板保证了颜色与实体位置的一致性。另一方面,渐进式二分法模块可以在深度优先二进制搜索中有效地将合成的色彩映射解码为高质量的实体级掩码,而无需知道聚类编号。为了解决缺乏大规模分割训练数据的问题,我们采用了修复管道,然后提高了扩散模型在各种任务中的灵活性,包括修复,图像合成,引用分割和实体分割。综合实验验证了我们的方法的效率,展示了可比的分割掩模质量的最先进的和适应性的多个任务。代码将在\href{https://github.com/qqlu/Entity}{https://github.com/qqlu/Entity}发布。

1.4 Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic Segmentation

适应泛化:基于扩散的领域泛化语义分割

https://arxiv.org/abs/2312.01850

当模型,例如,对于语义分割,应用于与训练数据有很大不同的图像,性能将显着下降。领域自适应方法试图克服这个问题,但需要来自目标领域的样本。然而,由于各种原因,这可能并不总是可行的,因此域泛化方法是有用的,因为它们不需要任何目标数据。我们提出了一种新的基于扩散的域扩展(DIDEX)方法,并采用扩散模型来生成一个伪目标域与不同的文本提示。与现有的方法相比,这允许控制所生成的图像的样式和内容,并引入高度的多样性。在第二步中,我们通过适应这个伪目标域来训练泛化模型。我们在不使用任何真实数据的情况下,在各种数据集和架构上都大大优于以前的方法。对于GTA 5的泛化,我们将最先进的mIoU性能平均提高了3.8%的绝对值,而对于SYNTHIA则提高了11.8%的绝对值,这标志着这些基准测试的泛化性能迈出了一大步。代码可在https://github.com/JNiemeijer/DIDEX上获得

1.5 Few Clicks Suffice: Active Test-Time Adaptation for Semantic Segmentation

几次点击就足够了:面向语义分割的主动测试时间适应

https://arxiv.org/abs/2312.01835

测试时自适应(Test-time adaptation,TTA)是在使用未标记测试数据进行推理的过程中对预先训练好的模型进行自适应的方法,由于其潜在的实用价值而受到了广泛的关注。不幸的是,没有任何标签监督,现有的TTA方法严重依赖于启发式或实证研究。模型的更新位置往往是次优的,或者会带来更多的计算资源消耗。与此同时,TTA方法与其监督的方法之间仍然存在显着的性能差距。受主动学习的启发,在这项工作中,我们提出了主动测试时间适应语义分割设置。具体来说,我们在测试阶段引入了人在回路模式,该模式查询很少的标签,以在线方式促进预测和模型更新。为此,我们提出了一个简单但有效的ATASeg框架,它由两部分组成,即,模型适配器和标签注释器。大量的实验表明,ATASeg弥合了TTA方法和它们的监督同行之间的性能差距,只有极少数的注释,甚至一个点击标记超过已知的SOTA TTA方法由2.6%的平均mIoU的ACDC基准。实证结果表明,无论是在模型适配器或标签注释器的进展将带来ATASeg框架的改进,使其具有巨大的研究和现实潜力。

1.6 SRSNetwork: Siamese Reconstruction-Segmentation Networks based on Dynamic-Parameter Convolution

SRSNetwork:基于动态参数卷积的暹罗重构分割网络

https://arxiv.org/abs/2312.01741

本文提出了一种用于弱目标图像分割的高性能深度神经网络,包括医学图像分割和红外图像分割。为此,本文分析了现有的动态卷积,并提出了动态参数卷积(DPConv)。此外,它从DPConv的角度重新评估重建任务和分割任务之间的关系,从而提出了一种称为连体重建-分割网络(SRSNet)的双网络模型。该模型不仅是一个通用的网络,而且在不改变其结构的情况下提高了分割性能,利用重建任务。此外,随着重建网络的训练数据量的增加,分割网络的性能也同步提高。在包括五个医学数据集和两个红外图像数据集在内的七个数据集上,我们的SRSNet始终达到最佳分割结果。代码发布于https://github.com/fidshu/SRSNet。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/134814846