文章目录

一、分割|语义相关(15篇)

一、分割|语义相关(15篇)

1.1 Video-Instrument Synergistic Network for Referring Video Instrument Segmentation in Robotic Surgery

机器人手术中参考视频器械分割的视频-器械协同网络

https://arxiv.org/abs/2308.09475

机器人辅助手术已经取得了重大进展，其中器械分割是手术干预质量的关键因素。它作为构建块，以促进手术机器人导航和下一代手术智能的手术教育。尽管现有方法已经实现了准确的器械分割结果，但是它们同时生成针对所有器械的分割掩模，而没有指定目标对象并允许交互式体验的能力。本工作探讨了一个新的任务参考手术视频器械分割（RSVIS），其目的是自动识别和分割相应的手术器械的基础上给定的语言表达。为了实现这一点，我们设计了一个新的视频仪器协同网络（VIS-Net）学习视频级和仪器级的知识，以提高性能，而以前的工作只使用视频级的信息。同时，我们设计了一个基于图的关系感知模块（GRM）来建模多模态信息（即，文本描述和视频帧）以便于提取仪器级信息。我们也是第一个制作两个RSVIS数据集，以促进相关研究。我们的方法在这些数据集上进行了验证，实验结果表明，VIS-Net可以显着优于现有的最先进的参考分割方法。我们的代码和数据集将在本作品发表时发布。

1.2 Single Frame Semantic Segmentation Using Multi-Modal Spherical Images

基于多模球面图像的单帧语义分割

https://arxiv.org/abs/2308.09369

近年来，研究界对提供360度定向视角的全景图像表现出了极大的兴趣。可以馈送多个数据模态，并且可以利用互补特征以基于语义分割进行更鲁棒和丰富的场景解释，以充分实现潜力。然而，现有的研究大多集中在针孔RGB-X语义分割。在这项研究中，我们提出了一个基于变换器的跨模态融合架构，以弥合多模态融合和全方位场景感知之间的差距。我们采用失真感知模块，以解决极端的对象变形和全景失真，结果从equirectangular表示。此外，我们进行跨模态的交互功能整流和信息交换之前，合并的功能，以沟通的双模态和三模态特征流的远程上下文。在三个室内全景视图数据集中使用四种不同模态类型的组合进行的全面测试中，我们的技术实现了最先进的mIoU性能：Stanford 2D 3DS（RGB-HHA）为60.60%，Structured 3D（RGB-D-N）为71.97%，Matterport 3D（RGB-D）为35.92%。我们计划很快发布所有代码和训练模型。

1.3 Retro-FPN: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation

回溯FPN：回溯特征金字塔网络点云语义分割

https://arxiv.org/abs/2308.09314

从分层特征金字塔中学习每一点的语义特征是点云语义分割的必要条件。然而，以往的方法大多存在区域特征不明确或不能有效地细化每点特征，导致信息丢失和语义识别不明确。为了解决这个问题，我们提出了Retro-FPN模型的每点特征预测作为一个明确的和回顾性的细化过程，它通过所有的金字塔层提取语义特征明确为每个点。其关键的新颖性是一个逆向转换器，用于总结前一层的语义上下文，并相应地细化当前阶段的功能。以这种方式，每个点的分类取决于其局部语义模式。具体而言，逆变换器由局部交叉注意块和语义门单元组成。交叉注意用于从前一层回顾性地总结语义模式。门单元仔细地结合总结的上下文，提炼当前语义特征。Retro-FPN是一种适用于分层解码器的可插拔神经网络。通过集成Retro-FPN与三个有代表性的骨干，包括基于点和基于体素的方法，我们表明，Retro-FPN可以显着提高性能超过国家的最先进的骨干。广泛使用的基准测试的综合实验可以证明我们的设计的有效性。来源可在https://github.com/AllenXiangX/Retro-FPN上获得

1.4 Inferior Alveolar Nerve Segmentation in CBCT images using Connectivity-Based Selective Re-training

基于连通性的选择性再训练CBCT图像下牙槽神经分割

https://arxiv.org/abs/2308.09298

CBCT中的下牙槽神经（IAN）管检测是许多牙科和颌面外科应用中的重要一步，以防止手术过程中对神经造成不可逆的损伤。ToothFairy 2023挑战赛旨在建立由所有稀疏标签和部分密集标签组成的三维颌面数据集，提高IAN自动分割能力。为了避免稀疏标记带来的负面影响，我们将混合监督问题转化为半监督问题。受伪标记自训练的启发，我们提出了一个基于IAN连通性的选择性再训练框架。在ToothFairy验证案例上对该方法进行了定量评价，获得了骰子相似系数（DSC）为0.7956，95% Hausdorff距离（HD 95）为4.4905，并在比赛中获得冠军。代码可在https://github.com/GaryNico517/SSL-IAN-Retraining上获得。

1.5 Self-Calibrated Cross Attention Network for Few-Shot Segmentation

用于Few-Shot分割的自校准交叉注意网络

https://arxiv.org/abs/2308.09294

Few-Shot分割成功的关键在于如何有效地利用支持样本。大多数解决方案将支持前景（FG）特征压缩到原型中，但丢失了一些空间细节。相反，其他人使用交叉注意来融合查询特征与未压缩的支持FG。查询FG可以与支持FG融合，然而，查询背景（BG）无法在支持FG中找到匹配的BG特征，但不可避免地集成了不相似的特征。此外，由于查询FG和BG都与支持FG相结合，它们变得纠缠，从而导致无效的分割。为了解决这些问题，我们设计了一个自校准的交叉注意（SCCA）块。为了有效的基于补丁的注意力，查询和支持功能首先被分割成补丁。然后，我们设计了一个补丁对齐模块，将每个查询补丁与其最相似的支持补丁对齐，以获得更好的交叉注意。具体地，SCCA将查询面片取为Q，并且将来自相同查询图像的面片和来自支持图像的对齐面片分组为K& V。以这种方式，查询BG特征与匹配的BG特征（来自查询补丁）融合，并且因此将减轻上述问题。此外，在计算SCCA时，我们设计了一个缩放余弦机制，以更好地利用支持特征的相似性计算。在PASCAL-5^i和COCO-20i上进行的大量实验证明了我们的模型的优越性，例如，在C 0 C 0 -20^i上的5次发射设置下的mIoU得分比先前的技术水平好5.6%+。该代码可在https://github.com/Sam1224/SCCAN上获得。

1.6 Point Contrastive Prediction with Semantic Clustering for Self-Supervised Learning on Point Cloud Videos

基于语义聚类的点云视频自监督学习的点对比预测

https://arxiv.org/abs/2308.09247

我们提出了一个统一的点云视频自监督学习框架，以对象为中心和场景为中心的数据。先前的方法通常在片段或帧级别进行表示学习，并且不能很好地捕获细粒度语义。而不是对比的表示片段或帧，在本文中，我们提出了一个统一的自我监督框架进行对比学习在点水平。此外，我们引入了一个新的借口任务，实现语义对齐的超点，这进一步促进了表示捕捉语义线索在多个尺度。此外，由于动态点云的时间维度中的高冗余度，在点级直接进行对比学习通常会导致大量不期望的负面和不充分的正面表示建模。为了弥补这一点，我们提出了一个选择策略，以保留适当的负面，并利用高相似性的样本从其他情况下作为积极的补充。大量的实验表明，我们的方法优于监督同行在广泛的下游任务，并展示了优越的可迁移性的学习表示。

1.7 A review of technical factors to consider when designing neural networks for semantic segmentation of Earth Observation imagery

对地观测图像语义分割神经网络设计应考虑的技术因素综述

https://arxiv.org/abs/2308.09221

对地观测图像的语义分割（分类）是遥感领域的一项重要任务。本文提出了一个全面的审查技术因素时，考虑设计神经网络为此目的。该审查的重点是卷积神经网络（CNN），递归神经网络（RNN），生成对抗网络（GANs）和Transformer模型，讨论这些神经网络家族的突出设计模式及其语义分割的影响。还介绍了用于确保最佳数据准备的常用预处理技术。这些包括图像归一化和芯片的方法，以及解决训练样本中数据不平衡的策略，以及克服有限数据的技术，包括增强技术，迁移学习和域适应。通过涵盖神经网络设计和数据相关的考虑因素的技术方面，本文综述提供了研究人员和从业人员对地球观测图像的语义分割设计有效的神经网络所涉及的因素的全面和最新的理解。

1.8 Learning to In-paint: Domain Adaptive Shape Completion for 3D Organ Segmentation

学习内绘：用于3D器官分割的域自适应形状完成

https://arxiv.org/abs/2308.08775

我们的目标是将明确的形状信息到当前的3D器官分割模型。与以往的工作不同，我们制定形状学习作为一个在画任务，这是命名为掩蔽标签掩模建模（MLM）。通过MLM，可学习的掩码令牌被馈送到Transformer块中以完成器官的标签掩码。为了将MLM形状知识转移到目标，我们进一步提出了一种新的形状感知自蒸馏，同时具有在画重建损失和伪损失。在五个公共器官分割数据集上进行的广泛实验显示出与现有技术相比的一致改进，Dice得分至少增加了1.2分，证明了我们的方法在挑战无监督域适应场景中的有效性，包括：（1）域内器官分割;（2）不可见域分割和（3）不可见器官分割。我们希望这项工作将推进医学成像中的形状分析和几何学习。

1.9 SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation

SurgicalSAM：一种高效的可升级手术器械分割方法

https://arxiv.org/abs/2308.08746

Segment Anything Model（SAM）是一个强大的基础模型，它彻底改变了图像分割。为了将SAM应用于手术器械分割，常见的方法是定位器械的精确点或盒，然后以zero-shot方式将其用作SAM的提示。然而，我们观察到这种朴素的管道存在两个问题：（1）自然物体和外科手术器械之间的域间隙导致SAM的较差概括;和（2）SAM依赖于精确的点或盒位置来进行精确的分割，需要大量的人工引导或性能良好的专业检测器来进行快速的准备，这导致了复杂的多级流水线。为了解决这些问题，我们引入了SurgicalSAM，这是SAM的一种新型端到端高效调整方法，可以有效地将手术特定信息与SAM的预训练知识相结合，以提高泛化能力。具体来说，我们提出了一个轻量级的基于原型的类提示编码器的调整，直接生成提示嵌入类原型，并消除了显式提示的使用，以提高鲁棒性和更简单的管道。此外，为了解决手术器械类别之间的低类间方差，我们提出了对比原型学习，进一步提高了类原型的歧视，以获得更准确的类提示。在EndoVis 2018和EndoVis 2017数据集上进行的大量实验结果表明，SurgicalSAM实现了最先进的性能，同时仅需要少量的可调参数。源代码将在https://github.com/wenxi-yue/SurgicalSAM发布。

1.10 Improving Anomaly Segmentation with Multi-Granularity Cross-Domain Alignment

改进的多粒度跨域对齐异常分割方法

https://arxiv.org/abs/2308.08696

异常分割在识别图像中的异常对象中起着至关重要的作用，这有利于自动驾驶道路异常的检测。虽然现有的方法已经显示出令人印象深刻的异常分割使用合成训练数据，但合成训练数据和真实测试数据之间的领域差异往往被忽视。为了解决这个问题，多粒度跨域对齐（MGCDA）框架提出了复杂驾驶环境中的异常分割。它独特地结合了一个新的多源领域对抗训练（MDAT）模块和一个新的跨领域异常感知对比学习（CACL）方法，以提高模型的通用性，无缝集成场景和样本水平的多领域数据。多源域对抗损失和动态标签平滑策略集成到MDAT模块中，以便于在场景级别获取域不变的特征，通过跨多个阶段的对抗训练。CACL将样本级表示与跨域数据的对比损失对齐，它利用异常感知的采样策略来有效地采样硬样本和锚点。所提出的框架在推理阶段具有参数自由的体面属性，并与其他异常分割网络兼容。在Fishyscapes和RoadAnomaly数据集上进行的实验表明，所提出的框架实现了最先进的性能。

1.11 Uncertainty-based quality assurance of carotid artery wall segmentation in black-blood MRI

基于不确定性的黑血MRI颈动脉壁分割质量保证

https://arxiv.org/abs/2308.09538

将深度学习模型应用于大规模数据集需要自动质量保证的手段。我们以前已经开发了一种全自动算法，用于在黑血MRI中进行颈动脉壁分割，我们的目标是应用于大规模数据集。该方法识别以颈动脉为中心的3D贴片中的嵌套动脉壁。在这项研究中，我们调查到什么程度的不确定性模型预测的轮廓位置可以作为错误检测的替代品，因此，自动质量保证。我们表示的质量自动分割使用的骰子相似系数。在模型的预测的不确定性估计使用蒙特卡罗下降或测试时间数据扩增。我们发现，（1）包括不确定性测量不会降低分割的质量，（2）如果在第一步期间发现的中心被封闭在颈动脉的管腔中，则不确定性度量提供了我们轮廓的质量的良好代理，以及（3）它们可以用于检测参与者水平的低质量分割。这种自动质量保证工具可能使我们的模型在大规模数据集的应用。

1.12 Metadata Improves Segmentation Through Multitasking Elicitation

元数据通过多任务启发式改进分词

https://arxiv.org/abs/2308.09411

元信息是生物医学图像的常见伴侣。然而，来自图像采集的这种潜在强大的额外信号源在深度学习方法中的用途有限，特别是对于语义分割。在这里，我们采用卷积网络中的信道调制机制，并研究其对语义分割任务的影响。我们证明，元数据作为卷积网络的额外输入可以提高分割结果，同时作为流行模型的灵活附加实现成本低廉。我们假设，元数据的这种好处可以归因于促进多任务切换。元数据驱动系统的这方面进行了探索和详细讨论。

1.13 Denoising diffusion-based MR to CT image translation enables whole spine vertebral segmentation in 2D and 3D without manual annotations

基于去噪扩散的MR到CT图像转换实现了2D和3D中的整个脊柱椎体分割，而无需人工注释

https://arxiv.org/abs/2308.09345

背景：脊柱MR图像的自动分割在科学和临床上都起着至关重要的作用。然而，准确描绘脊柱后部结构存在挑战。方法：本回顾性研究，经伦理委员会批准，涉及将T1 w和T2 w MR图像系列转换为CT图像，共n=263对CT/MR系列。进行基于标志的配准以对齐图像对。我们使用“峰值信噪比”（PSNR）作为质量度量，比较了2D配对（Pix 2 Pix，去噪扩散隐式模型（DDIM）图像模式，DDIM噪声模式）和未配对（对比未配对翻译，SynDiff）图像到图像翻译。公开可用的分割网络分割合成的CT数据集，并在内部测试集和“MRSpineSeg挑战”卷上评估Dice评分。2D发现扩展到3D Pix 2 Pix和DDIM。结果：2D配对方法和SynDiff在配对数据上表现出相似的翻译性能和Dice评分。DDIM图像模式实现了最高的图像质量。SynDiff、Pix 2 Pix和DDIM图像模式显示出相似的Dice评分（0.77）。对于头尾轴旋转，每个椎骨至少需要两个标志进行配准。3D平移优于2D方法，从而改善了Dice评分（0.80），并在比原始MR图像更高的分辨率下实现了解剖学上的准确分割。结论：每个椎骨配准两个标志点实现了从MR到CT的成对图像到图像转换，优于所有未配对方法。3D技术提供了解剖学上正确的分割，避免了对棘突等小结构的预测不足。

1.14 LesionMix: A Lesion-Level Data Augmentation Method for Medical Image Segmentation

LesionMix：一种用于医学图像分割的病变级别数据增强方法

https://arxiv.org/abs/2308.09026

数据增强已经成为基于深度学习的医学图像分割方法的事实组成部分。医学成像中使用的大多数数据增强技术集中在空间和强度变换上，以提高训练图像的多样性。它们通常是在图像级设计的，增强了整个图像，并且不关注图像中的特定异常。在这里，我们提出了LeisionMix，一种新颖的和简单的病变感知数据增强方法。它在病变水平进行增强，增加病变形状、位置、强度和载荷分布的多样性，并允许病变填充和修复。在不同模态和不同病变数据集（包括四个脑MR病变数据集和一个肝脏CT病变数据集）上的实验表明，LesionMix在病变图像分割中实现了有希望的性能，优于最近几种基于Mix的数据增强方法。代码将在https://github.com/dogabasaran/lesionmix上发布。

1.15 Eosinophils Instance Object Segmentation on Whole Slide Imaging Using Multi-label Circle Representation

基于多标号圆表示的全幻灯片图像中嗜酸性粒细胞实例对象分割

https://arxiv.org/abs/2308.08974

嗜酸性食管炎（EoE）是一种以食管炎症为特征的慢性复发性疾病。EoE的症状包括吞咽困难、食物嵌塞和胸痛，其显著影响生活质量，导致营养障碍、社交限制和心理困扰。EoE的诊断通常以每高倍视野（HPF）的嗜酸性粒细胞（Eos）的阈值（15至20）来进行。由于Eos的当前计数过程是人类病理学家的资源密集型过程，因此需要自动化方法。圆形表示已被示出为用于自动实例细胞分割（例如CircleSnake方法）的更精确但不太复杂的表示。然而，CircleSnake被设计为单标签模型，其无法处理多标签场景。在本文中，我们提出了多标签CircleSnake模型的实例分割Eos。它将原来的CircleSnake模型从单标签设计扩展到多标签模型，允许对多种对象类型进行分割。实验结果表明，CircleSnake模型在识别和分割嗜酸性粒细胞的平均精度（AP）方面优于传统的Mask R-CNN模型和DeepSnake模型，从而能够增强EoE的表征。这种自动化方法有望简化评估过程并提高EoE分析中的诊断准确性。源代码已在https://github.com/yilinliu610730/EoE上公开。

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 21 日论文合集）