文章目录

一、分割|语义相关(18篇)

一、分割|语义相关(18篇)

1.1 TomatoDIFF: On-plant Tomato Segmentation with Denoising Diffusion Models

番茄DIFF：基于去噪扩散模型的番茄在线分割

https://arxiv.org/abs/2307.01064

在这里插入图片描述
人工智能应用使农民能够优化作物生长和生产，同时降低成本和环境影响。特别是基于计算机视觉的算法通常用于水果分割，使得能够深入分析收获质量和准确的产量估计。在本文中，我们提出了TomatoDIFF，一种新的基于扩散的模型的语义分割的植物番茄。当与其他竞争性方法进行评估时，我们的模型显示出最先进的（SOTA）性能，即使在具有高度闭塞水果的挑战性环境中。此外，我们还介绍了Tomatopia，这是一个新的，大型且具有挑战性的温室番茄数据集。该数据集包括水果的高分辨率RGB-D图像和像素级注释。

1.2 CGAM: Click-Guided Attention Module for Interactive Pathology Image Segmentation via Backpropagating Refinement

CGAM：基于反向传播细化的交互式病理图像分割的点击引导注意模块

https://arxiv.org/abs/2307.01015

在这里插入图片描述
肿瘤区域分割是数字病理定量分析的一项重要任务。最近提出的深度神经网络在各种图像分割任务中表现出最先进的性能。然而，由于病理图像中的癌区域和正常区域之间的边界不清楚，尽管使用现代方法，它是难以产生满意的分割结果方面的可靠性和准确性的医学数据所要求的。在这项研究中，我们提出了一种交互式分割方法，允许用户通过点击类型的用户交互来细化深度神经网络的输出。主要的方法是制定交互式分割作为一个优化问题，利用用户提供的点击约束和语义信息在一个特征图使用点击引导的注意模块（CGAM）。与其他现有方法不同，CGAM避免了分割结果中的过度变化，这可能导致用户点击的过拟合。CGAM的另一个优点是模型尺寸与输入图像尺寸无关。病理图像数据集的实验结果表明，我们的方法比现有的国家的最先进的方法执行更好。

1.3 RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation

RefSAM：一种高效自适应的参考视频对象分割模型

https://arxiv.org/abs/2307.00997

在这里插入图片描述
任何分割模型（SAM）在图像分割中的表现令人印象深刻，得到了广泛的关注。然而，由于需要精确的用户交互式提示和对不同模态（如语言和视觉）的有限理解，它在参考视频对象分割（RVOS）方面缺乏熟练度。本文介绍了RefSAM模型，第一次探讨了潜在的SAM RVOS通过将多视图信息从不同的方式和连续的帧在不同的时间戳。我们所提出的方法采用了一个轻量级的跨模态MLP项目的参考表达式的文本嵌入到稀疏和密集的嵌入，作为用户交互式提示，适应原来的SAM模型，以提高跨模态学习。随后，一个参数有效的调整策略，有效地对齐和融合的语言和视觉功能。通过全面的消融研究，我们证明了我们的策略的实际和有效的设计选择。在Ref-Youtu-VOS和Ref-DAVIS 17数据集上进行的大量实验验证了我们的RefSAM模型相对于现有方法的优越性和有效性。代码和模型将在\href{https：//github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM}上公开发布。

1.4 Surgical fine-tuning for Grape Bunch Segmentation under Visual Domain Shifts

视觉域漂移下葡萄束分割的外科微调方法

https://arxiv.org/abs/2307.00837

在这里插入图片描述
移动机器人将在向可持续农业过渡中发挥关键作用。为了自主有效地监测植物的状态，机器人应该配备视觉感知能力，以适应农业环境的快速变化。在本文中，我们专注于具有挑战性的任务，分割葡萄串从葡萄园的移动机器人收集的图像。在这种情况下，我们提出了第一项研究，应用外科微调实例分割任务。我们展示了如何选择性地调整特定的模型层，以支持预先训练的深度学习模型适应新收集的葡萄图像，引入视觉域的变化，同时也大大减少了调整参数的数量。

1.5 DifFSS: Diffusion Model for Few-Shot Semantic Segmentation

DifFSS：Few-Shot语义分割的扩散模型

扫描二维码关注公众号，回复： 15612789 查看本文章

https://arxiv.org/abs/2307.00773

在这里插入图片描述
扩散模型在图像生成中表现出优异的性能。虽然已经提出了各种不同的网络结构的Few-Shot语义分割（FSS）模型，性能的提高已经达到了瓶颈。本文介绍了第一项工作，利用FSS任务的扩散模型，称为DifFSS。DifFSS是一种新的FSS范式，可以在不改变其网络结构的情况下进一步提高现有FSS模型的性能。具体来说，我们利用扩散模型的强大生成能力，通过使用语义掩码，涂鸦或软HED边界的支持图像作为控制条件，生成不同的辅助支持图像。这个生成过程模拟了查询图像类中的各种变化，例如颜色、纹理变化、光照等。因此，FSS模型可以参考更多样化的支持图像，产生更鲁棒的表示，从而实现分割性能的一致改进。基于现有的先进FSS模型，在三个公开可用的数据集上进行了大量的实验，证明了扩散模型的FSS任务的有效性。此外，我们详细探讨了不同的输入设置的扩散模型对分割性能的影响。希望这一全新的范式能为FSS任务与人工智能生成内容的研究带来启发。

1.6 Hierarchical Open-vocabulary Universal Image Segmentation

分层开放词汇式通用图像分割

https://arxiv.org/abs/2307.00764

在这里插入图片描述
开放词汇图像分割的目的是根据任意的文本描述将图像划分成语义区域。然而，复杂的视觉场景可以自然地分解成更简单的部分，并在多个粒度级别上进行抽象，从而引入固有的分割歧义。与现有的方法，通常回避这种模糊性，并把它作为一个外部因素，我们的方法积极纳入了一个分层表示，包括不同的语义层次的学习过程。我们提出了一个解耦的文本图像融合机制和表示学习模块的“东西”和“东西”。此外，我们系统地研究存在的差异，这些类型的类别之间的文本和视觉功能。我们由此产生的模型，命名为HIPIE，处理hiecological，oPen词汇，unIvErsal分割任务在一个统一的框架内。在超过40个数据集上进行基准测试，例如，ADE 20 K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW和SeginW，HIPIE在图像理解的各个级别上实现了最先进的结果，包括语义级（例如，语义分段）、实例级（例如，全景/参考分割和对象检测），以及部件级（例如，部分/子部分分段）任务。我们的代码在www.example.com上发布https://github.com/berkeley-hipie/HIPIE。

1.7 Pay Attention to the Atlas: Atlas-Guided Test-Time Adaptation Method for Robust 3D Medical Image Segmentation

注意Atlas：Atlas引导的稳健3D医学图像分割的测试时间自适应方法

https://arxiv.org/abs/2307.00676

在这里插入图片描述
卷积神经网络（CNN）在对不同于训练（源）数据分布的目标数据进行测试时通常性能较差，特别是在医学成像应用中，其中跨不同临床站点和扫描仪的成像协议的变化导致不同成像外观。然而，由于隐私问题和高标记成本，分别重新访问用于无监督域自适应的源训练数据或标记用于模型微调的附加测试数据可能是困难的。为了解决这个问题，我们提出了一种新的地图集引导的测试时间自适应（TTA）的鲁棒的三维医学图像分割方法，称为AdaAtlas。AdaAtlas只需要一个未标记的测试样本作为输入，并通过最小化基于图谱的损失来适应分割网络。具体地，网络被适配成使得其在配准之后的预测与图谱空间中的学习图谱对齐，这有助于减少测试时的解剖分割误差。此外，与大多数现有的TTA方法，限制了适应批量归一化块的分割网络，不同的是，我们进一步利用信道和空间注意块的使用，以提高在测试时间的适应性。对来自不同网站的多个数据集的大量实验表明，AdaAtlas与注意力块适应（AdaAtlas注意力）实现了卓越的性能改进，大大优于其他竞争对手TTA方法。

1.8 Referring Video Object Segmentation with Inter-Frame Interaction and Cross-Modal Correlation

基于帧间交互和跨模式相关的参考视频对象分割

https://arxiv.org/abs/2307.00536

在这里插入图片描述
参考视频对象分割（RVOS）的目的是从用语言表达方式描述的视频序列中分割出目标对象。典型的基于查询的方法以帧独立的方式处理视频序列以降低高计算成本，然而，由于缺乏用于时间相干性建模和被引用对象的时空表示学习的帧间交互，这影响了性能。此外，它们直接采用原始的高级句子特征作为语言查询来解码视觉特征，视觉特征和语言特征之间的弱相关性也增加了解码目标信息的难度，限制了模型的性能。在本文中，我们提出了一种新的RVOS框架，被称为IFIRVOS，以解决这些问题。具体而言，我们在Transformer解码器中设计了一个即插即用的帧间交互模块，以有效地学习所引用对象的时空特征，从而更精确地解码视频序列中的对象信息，生成更准确的分割结果。此外，我们设计的视觉语言交互模块之前的多模态变压器，以增强视觉和语言特征之间的相关性，从而促进解码过程中的对象信息的视觉特征的语言查询变压器解码器，提高分割性能。三个基准测试的广泛的实验结果验证了我们的IFIRVOS的优越性超过国家的最先进的方法和我们提出的模块的有效性。

1.9 LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance

LEDITS：具有DDPM反转和语义制导的真实图像编辑

https://arxiv.org/abs/2307.00522

在这里插入图片描述
最近的大规模文本引导扩散模型提供了强大的图像生成能力。目前，付出了很大的努力来使得能够仅使用文本来修改这些图像，作为提供直观和通用编辑的手段。然而，由于编辑技术的固有性质，编辑被证明对于这些生成模型是困难的，这涉及从原始图像中保留某些内容。相反，在基于文本的模型中，即使对文本提示的微小修改也经常导致完全不同的结果，使得实现准确地对应于用户意图的一次性生成极具挑战性。此外，要使用这些最先进的工具编辑真实图像，必须首先将图像反转到预先训练的模型域中-增加影响编辑质量的另一个因素以及延迟。在这份探索性报告中，我们提出了LEDITS -一个组合的轻量级方法，用于真实图像编辑，结合编辑友好的DDPM反转技术与语义指导，从而扩展语义指导真实图像编辑，同时利用编辑功能的DDPM反转以及。这种方法实现了灵活的编辑，既微妙又广泛，以及在组成和风格的变化，同时不需要优化或扩展的架构。

1.10 All-in-SAM: from Weak Annotation to Pixel-wise Nuclei Segmentation with Prompt-based Finetuning

All-in-SAM：从弱注释到基于即时微调的像素级核分割

https://arxiv.org/abs/2307.00290

在这里插入图片描述
Segment Anything Model（SAM）是最近提出的一种基于提示的分割模型，它是一种通用的zero-shot分割方法。凭借zero-shot分割能力，SAM在各种分割任务上实现了令人印象深刻的灵活性和精度。然而，当前的流水线在推理阶段需要手动提示，这对于生物医学图像分割来说仍然是资源密集型的。在本文中，我们引入了一个管道，该管道利用SAM，称为all-in-SAM，通过整个AI开发工作流程（从注释生成到模型微调），而不需要在推理阶段进行手动提示。具体地，首先采用SAM来从弱提示（例如，点、边界框）。然后，使用像素级注释来微调SAM分割模型，而不是从头开始训练。我们的实验结果揭示了两个关键发现：1）所提出的流水线在公共Monuseg数据集上的核分割任务中超越了最先进的（SOTA）方法，以及2）与使用强像素方式注释的数据相比，利用弱且少的注释进行SAM微调实现了有竞争力的性能。

1.11 HrSegNet : Real-time High-Resolution Neural Network with Semantic Guidance for Crack Segmentation

HrSegNet：具有语义指导的实时高分辨率神经网络裂纹分割

https://arxiv.org/abs/2307.00270

在这里插入图片描述
通过近年来对深度学习的广泛研究及其在建筑中的应用，裂缝检测已经从图像级和块级的粗检测快速发展到像素级的细粒度检测，更适合该领域的性质。尽管许多现有的研究利用现成的深度学习模型或增强它们，但这些模型在现实世界的应用中并不总是有效或高效的。为了弥合这一差距，我们提出了一个高分辨率模型与语义指导，专门设计用于实时裂缝分割，被称为HrSegNet。我们的模型在整个过程中保持高分辨率，而不是从低分辨率的功能恢复到高分辨率的，从而最大限度地保留裂缝的细节。此外，为了增强上下文信息，我们使用低分辨率的语义特征来指导高分辨率特征的重建。为了保证算法的效率，我们设计了一个简单而有效的方法来控制整个模型的计算成本，通过控制高分辨率通道的容量，同时提供了极强的可扩展性的模型。广泛的定量和定性评估表明，我们提出的HrSegNet具有特殊的裂缝分割能力，保持高分辨率和语义指导是至关重要的最终预测。与最先进的分割模型相比，HrSegNet实现了效率和有效性之间的最佳权衡。具体来说，在裂缝数据集CrackSeg 9 k上，我们最快的模型HrSegNet-B16实现了182 FPS的速度，78.43% mIoU，而我们最准确的模型HrSegNet-B48实现了80.32% mIoU，推理速度为140.3 FPS。

1.12 Efficient Subclass Segmentation in Medical Images

医学图像中有效的子类分割

https://arxiv.org/abs/2307.00257

在这里插入图片描述
随着医学图像分析中的研究兴趣变得越来越细粒度，用于广泛注释的成本也上升。一种降低成本的可行方法是使用粗粒度的超类标签进行注释，同时使用有限的细粒度注释作为补充。通过这种方式，细粒度的数据学习得到了大量粗注释的帮助。最近的分类任务的研究采用这种方法，取得了令人满意的结果。然而，在语义分割任务中的细粒度子类的有效学习方面还缺乏研究。在本文中，我们提出了一种新的方法，利用层次结构的类别来设计网络架构。同时，提出了一种任务驱动的数据生成方法，使网络更容易识别不同的子类类别。具体而言，我们引入了一个先验的级联模块，通过级联预测的逻辑从超类分类器，一个单独的归一化模块，拉伸类内的距离，以促进子类分割，和HiericalMix模型，生成高质量的伪标签的未标记样本融合只有类似的超类区域从标记和未标记的图像。我们在BraTS2021和ACDC数据集上的实验表明，我们的方法实现了与用完整子类注释训练的模型相当的准确性，具有有限的子类注释和足够的超类注释。我们的方法提供了一个有前途的解决方案，有效的细粒度的子类分割在医学图像。我们的代码在这里公开可用。

1.13 VesselMorph: Domain-Generalized Retinal Vessel Segmentation via Shape-Aware Representation

VesselMorph：基于形状感知的领域泛化视网膜血管分割

https://arxiv.org/abs/2307.00240

在这里插入图片描述
由于缺乏单一的标准化成像协议，从不同站点获取的数据之间的域移位是医学图像的固有属性，并且已成为基于学习的算法的大规模部署的主要障碍。对于视网膜血管图像，域偏移通常表现为强度、对比度和分辨率的变化，而血管的基本管状形状不受影响。因此，利用这种域不变的形态特征可以大大提高深度模型的泛化能力。在这项研究中，我们提出了一种名为VesselMorph的方法，它概括了二维视网膜血管分割任务，通过合成一个形状感知的表示。受传统Frangi滤波器和扩散张量成像文献的启发，我们引入了基于Hessian的双极张量场来描述血管的形态，从而考虑到形状信息。我们映射的强度图像和张量场的特征提取的潜在空间。然后，我们通过权重平衡技巧融合两个潜在表示，并将结果馈送到分割网络。我们评估了6个公共数据集的眼底和OCT血管造影图像从不同的患者人群。VesselMorph实现了优越的泛化性能相比，竞争的方法在不同的域转移的情况下。

1.14 Internal-External Boundary Attention Fusion for Glass Surface Segmentation

玻璃表面分割的内外边界注意力融合

https://arxiv.org/abs/2307.00212

在这里插入图片描述
透明物体和镜子的玻璃表面不能通过它们的视觉外观来唯一地和明确地表征，因为它们也包含其他反射或透射表面的视觉外观。从单色图像中检测玻璃区域是一项具有挑战性的任务。最近的深度学习方法已经关注玻璃表面边界的描述，其中观察到玻璃和非玻璃表面之间的视觉外观的过渡。在这项工作中，我们分析研究如何玻璃表面边界有助于表征玻璃物体。受先前具有挑战性的图像类型（如X射线或CT扫描）的语义分割方法的启发，我们提出了独立的内部-外部边界注意模块，该模块单独学习并选择性地整合来自单色图像的玻璃表面内部和外部区域的视觉特征。我们提出的方法进行了评估，六个公共基准比较，最先进的方法显示出有前途的结果。

1.15 Prompting classes: Exploring the Power of Prompt Class Learning in Weakly Supervised Semantic Segmentation

提示类：在弱监督语义分割中探索提示类学习的能力

https://arxiv.org/abs/2307.00097

在这里插入图片描述
最近，CLIP为基础的方法已经表现出显着的性能概括和Few-Shot的学习任务，燃料对比语言视觉预训练的力量。特别是，提示调整已经成为一种有效的策略，通过采用与任务相关的文本标记来使预训练的语言视觉模型适应下游任务。受这一进展的启发，在这项工作中，我们质疑是否其他基本问题，如弱监督语义分割（WSSS），可以受益于迅速调整。我们的研究结果揭示了两个有趣的观察结果，揭示了即时调优对WSSS的影响。首先，与优化上下文的更复杂的策略相比，仅修改文本提示符的类标记会对类激活图（CAM）产生更大的影响。第二，与图像地面实况相关联的类令牌不一定对应于产生最佳CAM的类别。这些观察的动机，我们介绍了一种新的方法的基础上的PrOmpt cLass lEarning（POLE）的策略。通过大量的实验，我们证明，我们的简单，但有效的方法实现SOTA性能在一个著名的WSSS基准。这些结果不仅突出了语言视觉模型在WSSS的好处，但也有可能迅速学习这个问题。该代码可在www.example.com获得https://github.com/rB080/WSS_POLE。

1.16 Cross-modality Attention Adapter: A Glioma Segmentation Fine-tuning Method for SAM Using Multimodal Brain MR Images

跨通道注意适配器：一种基于多通道脑MR图像的脑胶质瘤分割微调方法

https://arxiv.org/abs/2307.01124

在这里插入图片描述
根据2021年世界卫生组织（WHO）胶质瘤分类方案，胶质瘤分割是诊断和基因型预测的非常重要的基础。一般来说，3D多模态脑MRI是一种有效的诊断工具。在过去的十年中，机器学习，特别是深度学习，在医学图像处理中的使用有所增加。由于基础模型的发展，使用大规模数据集预训练的模型在各种任务上取得了更好的结果。然而，对于具有小数据集大小的医学图像，深度学习方法很难在真实世界的图像数据集上获得更好的结果。在本文中，我们提出了一个跨模态注意适配器的基础上多模态融合微调的基础模型，以完成任务的胶质瘤分割多模态MRI脑图像具有更好的效果。通过郑州大学第一附属医院（FHZU）的脑胶质瘤数据集验证了该方法的有效性。我们提出的方法优于当前最先进的方法，Dice为88.38%，Hausdorff距离为10.64，从而表现出4%的Dice增加，以分割神经胶质瘤区域用于神经胶质瘤治疗。

1.17 Deep Angiogram: Trivializing Retinal Vessel Segmentation

深血管造影术：视网膜血管分割的微不足道

https://arxiv.org/abs/2307.00245

在这里插入图片描述
在从眼底图像分割视网膜血管系统的研究工作中，深度学习模型始终实现卓越的性能。然而，这种数据驱动的方法对域转移非常敏感。对于眼底图像，这种数据分布变化可以容易地由照明条件的变化以及诸如出血和玻璃疣的疾病相关特征的存在引起。由于源域可能不包括所有可能类型的病理病例，因此可以鲁棒地识别看不见的域上的血管的模型是期望的，但仍然是难以捉摸的，尽管许多提出的分割网络的复杂性不断增加。在这项工作中，我们提出了一个对比变分自动编码器，可以过滤掉不相关的功能和合成的潜像，名为深血管造影，只代表视网膜血管。然后，可以通过阈值化深度血管造影图来容易地完成分割。合成网络的泛化性得到了改善的对比损失，使模型对图像对比度和噪声特征的变化不太敏感。与基线深度分割网络相比，我们的模型通过简单的阈值处理实现了更高的分割性能。我们的实验表明，该模型可以在不同的目标域生成稳定的血管造影，提供良好的可视化血管和非侵入性，安全的替代荧光素血管造影。

1.18 Multiscale Progressive Text Prompt Network for Medical Image Segmentation

用于医学图像分割的多尺度渐进式文本提示网络

https://arxiv.org/abs/2307.00174

在这里插入图片描述
医学图像的精确分割是获得可靠的形态学统计量的关键步骤。然而，训练深度神经网络用于此任务需要大量标记数据，以确保高精度的结果。为了解决这个问题，我们建议使用渐进式文本提示作为先验知识来指导分割过程。我们的模型包括两个阶段。在第一阶段中，我们对自然图像进行对比学习，以预训练一个强大的先验提示编码器（PPE）。此PPE利用文本优先提示生成多模态特征。在第二阶段，将医学图像和文本先验提示发送到从第一阶段继承的PPE中，以实现下游医学图像分割任务。多尺度特征融合块（MSFF）组合来自PPE的特征以产生多尺度多模态特征。这两个渐进特征不仅弥合了语义鸿沟，而且提高了预测的准确性。最后，UpAttention块通过合并图像和文本特征来细化预测结果。该设计提供了一种简单而准确的方法来利用多尺度渐进式文本先验提示进行医学图像分割。与仅使用图像相比，我们的模型实现了高质量的结果，低数据注释成本。此外，我们的模型不仅具有良好的可靠性和有效性的医学图像，但也表现出良好的自然图像。在不同图像数据集上的实验结果表明，该模型是有效的和强大的图像分割。

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（7 月 4 日论文合集）