文章目录

一、分割|语义相关(16篇)

一、分割|语义相关(16篇)

1.1 DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action Segmentation

DPMix：深度和点云视频专家的混合4D动作分割

https://arxiv.org/abs/2307.16803

在这里插入图片描述
在这份技术报告中，我们介绍了针对自我中心动作分割任务的人机交互 4D (HOI4D) 数据集进行的研究结果。作为一个相对新颖的研究领域，点云视频方法可能不擅长时间建模，特别是对于长点云视频（例如，150 帧）。相比之下，传统的视频理解方法已经得到了很好的发展。它们在时间建模上的有效性已在许多大规模视频数据集上得到了广泛验证。因此，我们将点云视频转换为深度视频，并采用传统的视频建模方法来改进4D动作分割。通过融合深度和点云视频方法，精度显着提高。所提出的方法名为深度和点云视频专家混合 (DPMix)，在 2023 年 HOI4D 挑战赛的 4D 动作分割赛道中获得了第一名。

1.2 Investigating and Improving Latent Density Segmentation Models for Aleatoric Uncertainty Quantification in Medical Imaging

医学影像中任意不确定性量化的潜在密度分割模型研究与改进

https://arxiv.org/abs/2307.16694

在这里插入图片描述
数据不确定性，例如传感器噪声或遮挡，可能会在图像中引入不可减少的模糊性，从而导致不同但合理的语义假设。在机器学习中，这种模糊性通常被称为任意不确定性。潜在密度模型可以用来解决图像分割中的这个问题。最流行的方法是概率 U-Net (PU-Net)，它使用潜在正态密度来优化条件数据对数似然证据下界。在这项工作中，我们证明了 PU-Net 潜在空间是严重不均匀的。结果，梯度下降的有效性受到抑制，模型对潜在空间样本的定位变得极其敏感，导致预测有缺陷。为了解决这个问题，我们提出了 Sinkhorn PU-Net (SPU-Net)，它使用 Sinkhorn Divergence 来促进所有潜在维度的同质性，有效提高梯度下降更新和模型鲁棒性。我们的结果表明，通过将其应用于各种临床分割问题的公共数据集，与之前基于匈牙利匹配指标进行概率分割的潜在变量模型相比，SPU-Net 获得了高达 11% 的性能提升。结果表明，通过鼓励均匀的潜在空间，可以显着改进医学图像分割的潜在密度建模。

1.3 Domain Adaptation for Medical Image Segmentation using Transformation-Invariant Self-Training

基于变换不变自学习的医学图像分割领域自适应

https://arxiv.org/abs/2307.16660

在这里插入图片描述
能够利用未标记数据的模型对于克服不同成像设备和配置所获取的数据集之间的巨大分布差距至关重要。在这方面，基于伪标记的自我训练技术已被证明对于半监督域适应非常有效。然而，伪标签的不可靠性可能会阻碍自训练技术从未标记的目标数据集中诱导抽象表示的能力，特别是在分布差距较大的情况下。由于神经网络性能对于图像变换应该是不变的，因此我们利用这一事实来识别不确定的伪标签。事实上，我们认为变换不变检测可以提供更合理的地面事实近似值。因此，我们提出了一种用于领域适应的半监督学习策略，称为变换不变自训练（TI-ST）。所提出的方法评估像素级伪标签的可靠性并在自训练期间过滤掉不可靠的检测。我们使用三种不同模式的医学图像、两种不同的网络架构和几种替代的最先进的域适应方法对域适应进行综合评估。实验结果证实了我们提出的方法在缓解目标域注释缺失和提高目标域分割性能方面的优越性。

1.4 Audio-visual segmentation, sound localization, semantic-aware sounding objects localization

视听分割、声音定位、语义感知的发声对象定位

https://arxiv.org/abs/2307.16620

在这里插入图片描述
视听分割（AVS）任务旨在从给定视频中分割发声对象。现有的工作主要集中于融合给定视频的音频和视觉特征以实现发声对象掩模。然而，我们观察到，现有技术倾向于分割视频中的某个显着对象，而不管音频信息如何。这是因为探测对象通常是 AVS 数据集中最显着的对象。因此，由于数据集偏差，当前的 AVS 方法可能无法定位真实的发声对象。在这项工作中，我们提出了一种视听实例感知分割方法来克服数据集偏差。简而言之，我们的方法首先通过对象分割网络定位视频中潜在的发声对象，然后将发声对象候选者与给定的音频相关联。我们注意到，一个物体可能在一个视频中是发声物体，但在另一个视频中可能是无声物体。这会给训练我们的对象分割网络带来歧义，因为只有发声对象才有相应的分割掩模。因此，我们提出了一个静默的对象感知分割目标来减轻歧义。此外，由于音频的类别信息是未知的，特别是对于多个声源，我们建议探索视听语义相关性，然后将音频与潜在对象相关联。具体来说，我们将预测的音频类别分数加入到潜在的实例掩码中，这些分数将突出显示相应的发声实例，同时抑制听不见的实例。当我们强制参与实例掩码类似于真实掩码时，我们能够建立视听语义相关性。 AVS 基准测试的实验结果表明，我们的方法可以有效地分割发声对象，而不会偏向显着对象。

1.5 Contrastive Conditional Latent Diffusion for Audio-visual Segmentation

用于视听分割的对比条件隐含扩散算法

https://arxiv.org/abs/2307.16579

在这里插入图片描述
我们提出了一种用于视听分割（AVS）的具有对比学习的潜在扩散模型，以广泛探索音频的贡献。我们将 AVS 解释为条件生成任务，其中音频被定义为声音生成器分段的条件变量。根据我们的新解释，特别有必要对音频和最终分割图之间的相关性进行建模，以确保其贡献。我们在我们的框架中引入了潜在扩散模型，以实现语义相关的表示学习。具体来说，我们的扩散模型学习地面实况分割图的条件生成过程，从而在测试阶段执行去噪过程时进行地面实况感知推理。作为条件扩散模型，我们认为确保条件变量对模型输出有贡献至关重要。然后，我们将对比学习引入到我们的框架中来学习视听对应关系，这被证明与最大化模型预测和音频数据之间的互信息是一致的。通过这种方式，我们通过对比学习的潜在扩散模型明确最大化了音频对 AVS 的贡献。基准数据集上的实验结果验证了我们解决方案的有效性。

1.6 Transferable Attack for Semantic Segmentation

语义分词的可转移攻击

https://arxiv.org/abs/2307.16572

在这里插入图片描述
众所周知，语义分割模型容易受到小输入扰动的影响。在本文中，我们全面分析了语义分割模型在对抗性攻击方面的性能，并观察到从源模型生成的对抗性示例无法攻击目标模型，即传统的攻击方法，如 PGD 和 FGSM ，不能很好地迁移到目标模型，因此有必要研究可迁移攻击，特别是语义分割的可迁移攻击。我们发现，为了实现可转移攻击，攻击应该具有有效的数据增强和平移不变特征来处理未见过的模型，以及稳定的优化策略来找到最佳攻击方向。基于上述观察，我们提出了一种用于语义分割的集成攻击，通过聚合来自分类的多个可转移攻击来实现具有更高可转移性的更有效的攻击。

1.7 Towards Unbalanced Motion: Part-Decoupling Network for Video Portrait Segmentation

走向不平衡运动：用于视频人像分割的部分解耦网络

https://arxiv.org/abs/2307.16565

在这里插入图片描述
视频肖像分割（VPS）旨在从视频帧中分割出突出的前景肖像，近年来受到了广泛关注。然而，现有 VPS 数据集的简单性导致对该任务的广泛研究受到限制。在这项工作中，我们提出了一种新的复杂的大规模多场景视频肖像分割数据集 MVPS，由 7 个场景类别的 101 个视频片段组成，其中 10,843 个采样帧在像素级别进行了精细注释。该数据集场景多样，背景环境复杂，是目前VPS中最复杂的数据集。通过数据集构建过程中对大量人像视频的观察，我们发现，由于人体的关节结构，人像的运动是部分关联的，导致不同部分的运动相对独立。也就是说，肖像的不同部分的运动是不平衡的。针对这种不平衡，一个直观且合理的想法是，通过将肖像解耦成多个部分，可以更好地利用肖像中的不同运动状态。为了实现这一目标，我们提出了一种用于视频肖像分割的部分解耦网络（PDNet）。具体来说，提出了一种帧间部分区分注意力（IPDA）模块，该模块无监督地将肖像分割成多个部分，并对每个不同部分指定的判别特征利用不同的注意力。这样，可以对运动不平衡的肖像部分给予适当的关注，以提取部分区分的相关性，从而可以更准确地分割肖像。实验结果表明，与最先进的方法相比，我们的方法取得了领先的性能。

1.8 Rethinking Collaborative Perception from the Spatial-Temporal Importance of Semantic Information

从语义信息的时空重要性反思协同感知

https://arxiv.org/abs/2307.16517

在这里插入图片描述
通过共享语义信息进行协作对于增强感知能力至关重要。然而，现有的协作感知方法往往只关注语义信息的空间特征，而忽略了时间维度在协作者选择和语义信息融合中的重要性，从而导致性能下降。在本文中，我们提出了一种新颖的协作感知框架——IoSI-CP，它从时间和空间维度考虑了语义信息（IoSI）的重要性。具体来说，我们开发了一种基于 IoSI 的协作者选择方法，该方法可以有效识别有利的协作者，但排除那些带来负面收益的协作者。此外，我们提出了一种称为 HPHA（历史先验混合注意力）的语义信息融合算法，该算法集成了多尺度变换器模块和短期注意力模块，以从空间和时间维度捕获 IoSI，并分配不同的权重以进行有效聚合。对两个开放数据集的大量实验表明，与最先进的方法相比，我们提出的 IoSI-CP 显着提高了感知性能。

1.9 3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks

基于3D和2D网络交叉教学的稀疏注记三维医学图像分割

https://arxiv.org/abs/2307.16256

在这里插入图片描述
医学图像分割通常需要大型且精确注释的数据集。然而，获得像素级注释是一项劳动密集型任务，需要领域专家付出巨大努力，这使得在实际临床场景中获得该注释具有挑战性。在这种情况下，减少所需的注释量是一种更实用的方法。一种可行的方向是稀疏注释，它只涉及几个切片的注释，并且比传统的弱注释方法（例如边界框和涂鸦）具有多个优点，因为它保留了精确的边界。然而，由于监督信号的稀缺，从稀疏注释中学习具有挑战性。为了解决这个问题，我们提出了一个框架，可以使用 3D 和 2D 网络的交叉教学从稀疏注释中稳健地学习。考虑到这些网络的特点，我们开发了两种伪标签选择策略，即硬-软置信度阈值和一致标签融合。我们在 MMWHS 数据集上的实验结果表明，我们的方法优于最先进的 (SOTA) 半监督分割方法。此外，我们的方法取得的结果与完全监督的上限结果相当。

1.10 ScribbleVC: Scribble-supervised Medical Image Segmentation with Vision-Class Embedding

ScribbleVC：基于视觉类嵌入的涂鸦监督医学图像分割

https://arxiv.org/abs/2307.16226

在这里插入图片描述
医学图像分割在临床决策、治疗计划和疾病监测中发挥着至关重要的作用。然而，由于缺乏高质量注释、成像噪声和患者之间的解剖差异等多种因素，医学图像的准确分割具有挑战性。此外，现有的标签高效方法和完全监督方法之间在性能上仍然存在相当大的差距。为了解决上述挑战，我们提出了 ScribbleVC，这是一种用于涂鸦监督医学图像分割的新颖框架，它通过多模态信息增强机制利用视觉和类嵌入。此外，ScribbleVC统一利用CNN特征和Transformer特征来实现更好的视觉特征提取。所提出的方法将基于涂鸦的方法与分割网络和类嵌入模块相结合，以产生准确的分割掩模。我们在三个基准数据集上评估 ScribbleVC，并将其与最先进的方法进行比较。实验结果表明，我们的方法在准确性、鲁棒性和效率方面优于现有方法。数据集和代码发布在 GitHub 上。

1.11 PD-SEG: Population Disaggregation Using Deep Segmentation Networks For Improved Built Settlement Mask

PD-SEG：基于深度分割网络的改进聚落面具种群分解

https://arxiv.org/abs/2307.16084

在这里插入图片描述
任何涉及优化利用资源进行发展和规划举措的政策层面的决策程序和学术研究都依赖于准确的人口密度统计数据。 WorldPop 和 Meta 提供的当前尖端数据集未能成功实现巴基斯坦等发展中国家的这一目标；他们的算法的输入提供了有缺陷的估计，无法捕捉空间和土地利用动态。为了以 30 米 x 30 米的分辨率精确估计人口数量，我们使用通过深度分割网络和卫星图像获得的精确构建的沉降掩模。兴趣点 (POI) 数据还用于排除非住宅区。

1.12 XMem++: Production-level Video Segmentation From Few Annotated Frames

XMem++：从少量带注解的帧中进行生产级视频分割

https://arxiv.org/abs/2307.15958

在这里插入图片描述
尽管用户引导的视频分割取得了进步，但为高度复杂的场景一致地提取复杂对象仍然是一项劳动密集型任务，尤其是对于生产而言。大多数框架需要注释的情况并不罕见。我们引入了一种新颖的半监督视频对象分割（SSVOS）模型 XMem++，它通过永久内存模块改进了现有的基于内存的模型。大多数现有方法都专注于单帧注释，而我们的方法可以有效地处理同一对象或区域具有不同外观的多个用户选择的帧。我们的方法可以提取高度一致的结果，同时保持所需的帧注释数量较低。我们进一步引入了一种迭代和基于注意力的框架建议机制，它计算下一个最佳的注释框架。我们的方法是实时的，不需要在每次用户输入后重新训练。我们还引入了一个新的数据集 PUMaVOS，它涵盖了以前的基准测试中未发现的新的具有挑战性的用例。我们在具有挑战性的（部分和多类）分割场景以及长视频上展示了 SOTA 性能，同时确保比任何现有方法显着减少帧注释。

1.13 CMDA: Cross-Modality Domain Adaptation for Nighttime Semantic Segmentation

CMDA：面向夜间语义分割的跨通道领域自适应

https://arxiv.org/abs/2307.15942

在这里插入图片描述
大多数夜间语义分割研究都是基于领域适应方法和图像输入。然而，受传统相机低动态范围的限制，图像无法捕捉弱光条件下的结构细节和边界信息。事件相机作为一种新型视觉传感器，以其高动态范围与传统相机形成互补。为此，我们提出了一种新颖的无监督跨模态域适应（CMDA）框架，利用多模态（图像和事件）信息进行夜间语义分割，仅在白天图像上添加标签。在 CMDA 中，我们设计了图像运动提取器来提取运动信息，设计了图像内容提取器来从图像中提取内容信息，以弥合不同模态（图像到事件）和领域（白天到夜晚）之间的差距。此外，我们还介绍了第一个图像事件夜间语义分割数据集。对公共图像数据集和提出的图像事件数据集的广泛实验证明了我们提出的方法的有效性。

1.14 A hybrid approach for improving U-Net variants in medical image segmentation

一种改进医学图像分割中U网变体的混合方法

https://arxiv.org/abs/2307.16462

在这里插入图片描述
医学图像分割对于医学成像领域至关重要，因为它使专业人员能够更准确地检查和理解不同成像方式提供的信息。将医学图像分割成各种感兴趣的片段或区域的技术称为医学图像分割。生成的分割图像可用于许多不同的用途，包括诊断、手术计划和治疗评估。
在研究的初始阶段，主要重点是回顾现有的深度学习方法，包括 MultiResUNet、Attention U-Net、经典 U-Net 和其他变体等研究。注意特征向量或图动态地为关键信息添加重要权重，并且大多数这些变体都使用它们来提高准确性，但网络参数要求更加严格。它们面临着某些问题，例如过度拟合，因为它们的可训练参数数量非常多，推理时间也非常多。
因此，本研究的目的是使用深度可分离卷积来减少网络参数要求，同时保持某些医学图像分割任务的性能，例如使用注意系统和残差连接的皮肤病变分割。

1.15 An objective validation of polyp and instrument segmentation methods in colonoscopy through Medico 2020 polyp segmentation and MedAI 2021 transparency challenges

通过Medico 2020息肉分割和MEDai 2021透明度挑战对结肠镜检查中息肉和器械分割方法的客观验证

https://arxiv.org/abs/2307.16262

在这里插入图片描述
由于早期检测癌前息肉的重要性，结肠镜检查图像的自动分析一直是一个活跃的研究领域。然而，由于各种因素，例如内窥镜医师的技能和经验差异、注意力不集中以及疲劳导致息肉漏检率较高，在实时检查期间检测息肉可能具有挑战性。深度学习已成为应对这一挑战的一种有前途的解决方案，因为它可以帮助内窥镜医生实时检测和分类被忽视的息肉和异常。除了算法的准确性之外，透明度和可解释性对于解释算法预测的原因和方式也至关重要。此外，大多数算法都是在私有数据、闭源或专有软件中开发的，并且方法缺乏可重复性。因此，为了促进高效、透明方法的发展，我们组织了“Medico自动息肉分割（Medico 2020）”和“MedAI：医学图像分割的透明度（MedAI 2021）”竞赛。我们对每项贡献进行了全面的总结和分析，强调了表现最佳的方法的优势，并讨论了将此类方法转化为临床的可能性。对于透明度任务，包括胃肠病专家在内的多学科团队访问了每份提交内容，并根据开源实践、失败案例分析、消融研究、评估的可用性和可理解性对团队进行了评估，以更深入地了解模型的临床部署的可信度。通过对挑战的全面分析，我们不仅强调了息肉和手术器械分割方面的进展，还鼓励定性评估，以构建更加透明和易于理解的基于人工智能的结肠镜检查系统。

1.16 Cross-dimensional transfer learning in medical image segmentation with deep learning

深度学习的跨维转移学习在医学图像分割中的应用

https://arxiv.org/abs/2307.15872

在这里插入图片描述
在过去的十年中，卷积神经网络已经出现，并推动了各种图像分析和计算机视觉应用领域的最先进技术。二维图像分类网络的性能不断提高，并在由数百万张自然图像组成的数据库上进行训练。然而，有限的注释数据和采集限制阻碍了医学图像分析的进展。考虑到医学成像数据的体积，这些限制甚至更加明显。在本文中，我们介绍了一种有效的方法，可以将在自然图像上训练的 2D 分类网络的效率转移到 2D、3D 单模态和多模态医学图像分割应用中。在这个方向上，我们基于两个关键原则设计了新颖的架构：通过将 2D 预训练编码器嵌入到更高维度的 U-Net 中进行权重转移，以及通过将 2D 分割网络扩展到更高维度来进行维度转移。所提出的网络在包含不同模式的基准上进行了测试：MR、CT 和超声图像。我们的 2D 网络在专门用于超声心动图数据分割的 CAMUS 挑战赛中排名第一，并超越了最先进的水平。关于 CHAOS 挑战赛中的 2D/3D MR 和 CT 腹部图像，我们的方法在 Dice、RAVD、ASSD 和 MSSD 分数方面大大优于挑战论文中描述的其他基于 2D 的方法，并在在线评估平台上排名第三。我们应用于BraTS 2022比赛的3D网络也取得了可喜的结果，整个肿瘤的平均Dice得分为91.69%（91.22%），肿瘤核心的平均Dice得分为83.23%（84.77%），肿瘤核心的平均Dice得分为81.75%（83.88%）。使用基于重量（尺寸）转移的方法增强肿瘤。实验和定性结果说明了我们的多维医学图像分割方法的有效性。

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 1 日论文合集）