一、分割|语义相关(7篇)

1.1 NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation

Novis：端到端近在线视频实例分割实例

https://arxiv.org/abs/2308.15266

直到最近，视频实例分割（VIS）社区在以下共同信念下操作：离线方法通常优于逐帧在线处理。然而，最近在线方法的成功质疑这种信念，特别是对于具有挑战性和长视频序列。我们将这项工作理解为对最近观察结果的反驳，并呼吁社区关注专用的近在线VIS方法。为了支持我们的论点，我们提出了一个详细的分析不同的处理范式和新的端到端的可训练NOVIS（近在线视频实例分割）方法。我们的基于变换器的模型直接预测帧的剪辑的时空掩模体积，并通过重叠嵌入执行剪辑之间的实例跟踪。NOVIS代表了第一个接近在线的VIS方法，它避免了任何手工制作的跟踪启发式。我们的表现远远优于所有现有的VIS方法，并在YouTube-VIS（2019/2021）和OVIS基准测试中提供了最先进的结果。

1.2 A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic Information

一种引入言语语义信息的多模式视觉编码模型

https://arxiv.org/abs/2308.15142

生物学研究表明，大脑皮层中的言语语义信息作为一个额外的来源，参与了非言语语义任务，如视觉编码。然而，以前的视觉编码模型没有纳入言语语义信息，矛盾的生物学发现。针对这一问题，提出了一种基于刺激图像和相关文本信息的多模态视觉信息编码网络模型。我们的视觉信息编码网络模型将刺激图像作为输入，并利用文本图像生成模型生成的文本信息作为口头语义信息。这种方法将新的信息注入视觉编码模型。随后，Transformer网络对齐图像和文本特征信息，创建多模态特征空间。然后，卷积网络从该多模态特征空间映射到体素空间，构建多模态视觉信息编码网络模型。实验结果表明，所提出的多模态视觉信息编码网络模型在精确的训练代价下优于以往的模型。在对象1的大脑的左半球的体素预测中，性能提高了大约15.87%，而在右半球中，性能提高了大约4.6%。多模态视觉编码网络模型表现出优异的编码性能。此外，消融实验表明，我们提出的模型更好地模拟大脑的视觉信息处理。

1.3 Abdominal Multi-Organ Segmentation Based on Feature Pyramid Network and Spatial Recurrent Neural Network

基于特征金字塔网络和空间递归神经网络的腹部多器官分割

https://arxiv.org/abs/2308.15137

随着人工智能的最新进展正在导致传统诊断方法的衰落，端到端诊断的实现正在快速接近。超声图像分割是诊断过程中的重要步骤。一个准确和强大的分割模型加速了过程，并减轻了超声检查师的负担。与以前的研究相比，我们考虑了超声图像的两个固有特征：（1）不同的器官和组织在空间大小上不同;（2）人体内部的解剖结构形成相对恒定的空间关系。基于这两个思想，我们提出了一个新的图像分割模型相结合的特征金字塔网络（FPN）和空间递归神经网络（SRNN）。我们讨论了为什么我们使用FPN来提取不同尺度的解剖结构，以及如何实现SRNN来提取腹部超声图像中的空间上下文特征。

1.4 Auto-Prompting SAM for Mobile Friendly 3D Medical Image Segmentation

移动友好三维医学图像分割中的自动提示SAM算法

https://arxiv.org/abs/2308.14936

分割任意模型（SAM）已迅速被用于分割范围广泛的自然图像。然而，最近的研究表明，SAM表现出低于标准的3D医学图像分割任务的性能。除了自然图像和医学图像之间的领域差距，2D和3D图像之间的空间布置的差异，强大的GPU服务器强加的大量计算负担，以及耗时的手动提示生成阻碍SAM扩展到更广泛的医学图像分割应用。为了解决这些挑战，在这项工作中，我们介绍了一种新的方法，AutoSAM适配器，专为三维多器官CT为基础的分割设计。我们采用参数高效的适应技术，在开发一个自动提示学习范式，以促进转换的SAM模型的能力，3D医学图像分割，消除了手动生成的提示的需要。此外，我们有效地将获取的AutoSAM适配器的知识转移到其他专门为3D医学图像分析量身定制的轻量级模型，在医学图像分割任务上实现了最先进的（SOTA）性能。通过广泛的实验评估，我们证明了AutoSAM适配器作为一个重要的基础，有效地利用新兴的能力的基础模型在2D自然图像分割3D医学图像分割。

1.5 Maturity-Aware Active Learning for Semantic Segmentation with Hierarchically-Adaptive Sample Assessment

基于分层自适应样本评估的成熟度主动学习语义分割算法

https://arxiv.org/abs/2308.14904

用于语义分割的主动学习（AL）由于严重的类不平衡和定义“样本”（像素、区域等）的不同方式而具有挑战性。使得数据分布的解释模糊不清。我们提出了“基于成熟度感知分布分解的主动学习”（MADBAL），这是一种AL方法，它受益于分层方法来定义多视图数据分布，该方法联合考虑了不同的“样本”定义，因此能够选择最有影响力的分割像素，并具有全面的理解。MADBAL还具有一个新的不确定性公式，其中AL支持模块被包括来感知功能的成熟度，其加权影响不断有助于不确定性检测。通过这种方式，MADBAL即使在AL早期阶段也能实现显著的性能飞跃，从而显著减轻了训练负担。它优于Cityscapes和PASCAL VOC数据集上的最先进的方法，在我们广泛的实验中得到了验证。

1.6 BIT: Bi-Level Temporal Modeling for Efficient Supervised Action Segmentation

BIT：用于高效有监督动作分割的两级时态建模

https://arxiv.org/abs/2308.14900

我们解决的任务，监督的行动分割，其目的是将视频分割成非重叠的片段，每个代表一个不同的行动。最近的工作应用Transformers进行时间建模的帧级，这遭受高的计算成本，不能很好地捕捉动作的依赖关系，在很长的时间范围。为了解决这些问题，我们提出了一个有效的BI级时态建模（BIT）框架，学习明确的动作令牌来表示动作段，并行执行帧和动作级别的时态建模，同时保持低的计算成本。我们的模型包含（i）一个使用卷积来学习帧级关系的帧分支，（ii）一个使用Transformer来学习动作级依赖关系的动作分支，以及（iii）交叉关注以允许两个分支之间的通信。我们应用并扩展了一个集合预测目标，允许每个动作令牌表示一个或多个动作片段，从而可以避免在具有许多片段的长视频上学习大量令牌。由于我们的动作分支的设计，我们还可以无缝地利用视频的文本转录（当可用时），通过使用它们来初始化动作令牌来帮助动作分割。我们在四个视频数据集（两个以自我为中心的和两个第三人称）上评估了我们的模型，用于有和没有转录的动作分割，表明BIT显着提高了最先进的准确性，与现有的基于变换器的方法相比，计算成本要低得多（快30倍）。

1.7 Shape-Margin Knowledge Augmented Network for Thyroid Nodule Segmentation and Diagnosis

形状边缘知识增强的甲状腺结节分割与诊断网络

https://arxiv.org/abs/2308.15386

甲状腺结节分割是医生和计算机辅助诊断系统诊断过程中的关键步骤。大多数情况下，目前的研究处理分割和诊断作为独立的任务，而不考虑这些任务之间的相关性。在计算机辅助诊断系统中，这些独立任务的顺序步骤可能导致错误的积累。因此，通过探讨甲状腺结节分割与诊断的关系，将两者结合起来是值得的。根据甲状腺影像报告和数据系统（TI-RADS），甲状腺结节的形态和边缘特征是鉴别良恶性的前提。这些特征可以在甲状腺结节分割掩模中观察到。受TI-RADS诊断程序的启发，本文提出了一种形状边缘知识增强网络（SkaNet），同时甲状腺结节分割和诊断。由于分割和诊断之间视觉特征的相似性，SkaNet在特征提取阶段共享视觉特征，然后利用双分支架构同时执行甲状腺结节分割和诊断任务。为了增强有效的区分特征，设计了指数混合模块，该模块通过指数加权将卷积特征映射和自注意映射结合起来。然后，SkaNet是联合优化的知识增强的多任务损失函数与约束惩罚项。它通过数值计算嵌入形状和边缘特征，并建立甲状腺结节诊断结果与分割掩模之间的关系。

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 30 日论文合集）

文章目录