文章目录

一、分割|语义相关(17篇)

一、分割|语义相关(17篇)

1.1 Semi-Supervised Medical Image Segmentation with Co-Distribution Alignment

基于协同分布对齐的半监督医学图像分割

https://arxiv.org/abs/2307.12630

在这里插入图片描述
医学图像分割在有大量标记数据的情况下取得了显著的进展。然而，注释医学图像分割数据集是昂贵的，由于专业技能的要求。此外，类往往是不均匀分布在医学图像，这严重影响了少数类的分类性能。为了解决这些问题，本文提出了协同分布对齐（Co-DA）的半监督医学图像分割。具体而言，Co-DA在使用由一个模型生成的伪标签来监督另一个之前，以类方式将未标记数据上的边际预测与标记数据上的边际预测对齐，其中两个模型初始化不同。此外，我们设计了一个超预期交叉熵损失过滤的未标记的像素，以减少其伪标签的噪声。在三个公共数据集上的定量和定性实验表明，所提出的方法优于现有的最先进的半监督医学图像分割方法的2D CaDIS数据集和3D LGE-MRI和ACDC数据集，实现了0.8515的mIoU只有24%的标记数据的CaDIS，和0.8824和0.8773的Dice得分只有20%的数据LGE-MRI和ACDC，分别。

1.2 CTVIS: Consistent Training for Online Video Instance Segmentation

CTVIS：在线视频实例分割的一致性训练

https://arxiv.org/abs/2307.12616

在这里插入图片描述
实例嵌入的判别对于在线视频实例分割（VIS）中跨时间关联实例起着至关重要的作用。实例嵌入学习直接由对比项（CI）上计算的对比损失来监督，对比项是锚/正/负嵌入的集合。最近的在线VIS方法只利用来自一个参考系的CI，我们认为这不足以学习高度区分的嵌入。直观地说，增强CI的一种可能策略是在训练期间复制推理阶段。为此，我们提出了一个简单而有效的训练策略，称为一致训练在线VIS（CTVIS），致力于调整训练和推理管道建设CI。具体而言，CTVIS通过引用推断动量平均嵌入和存储库存储机制，并向相关嵌入添加噪声来构造CI。这样的扩展允许在当前实例的嵌入与历史实例的稳定表示之间进行可靠的比较，从而在对VIS挑战（诸如遮挡、重新识别和变形）进行建模方面赋予优势。从经验上看，CTVIS在三个VIS基准上超过SOTA VIS模型高达+5.0点，包括YTVIS 19（55.1% AP），YTVIS 21（50.1% AP）和OVIS（35.5% AP）。此外，我们发现，从图像转换的伪视频可以训练强大的模型，超越完全监督的。

1.3 SL: Stable Learning in Source-Free Domain Adaption for Medical Image Segmentation

SL：医学图像分割中的无源域自适应稳定学习

https://arxiv.org/abs/2307.12580

在这里插入图片描述
用于医学图像分析的深度学习技术通常遭受源数据和目标数据之间的域移位。现有的大多数工作集中在无监督域自适应（UDA）。然而，在实际应用中，隐私问题要严重得多。例如，不同医院的数据由于设备问题而发生域转移，两个域的数据由于隐私问题而不能同时可用。在这个定义为无源UDA的挑战中，以前的UDA医疗方法是有限的。虽然已经提出了各种医疗源无监督域自适应（MSFUDA）方法，我们发现他们陷入了一个称为“更长的训练，更差的性能”的过度拟合困境。“因此，我们提出了稳定学习（SL）策略来解决这个困境。SL是一种可扩展的方法，可以与其他研究相结合，其中包括权重合并和熵增加。首先，我们应用权重合并来保留领域不变的知识，然后我们设计熵增加，以避免过度学习。对比实验证明了SL的有效性。我们也做了大量的烧蚀实验。此外，我们将发布代码，包括各种MSFUDA方法。

1.4 SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings

Swipe：隐式补丁嵌入的高效稳健医学图像分割

https://arxiv.org/abs/2307.12429

在这里插入图片描述
现代医学图像分割方法主要使用栅格化掩模形式的离散表示来学习特征并生成预测。虽然有效，但这种范例在空间上是不灵活的，难以扩展到更高分辨率的图像，并且缺乏对对象形状的直接理解。为了解决这些限制，最近的一些工作利用隐式神经表示（INR）来学习连续表示用于分割。然而，这些方法通常直接采用为3D形状重建设计的组件。更重要的是，这些公式也被限制在基于点的或全局的上下文中，分别缺乏上下文理解或局部细粒度细节-这两者对于准确分割至关重要。为了弥补这一点，我们提出了一种新的方法，SwIPE（分段与隐式补丁嵌入），利用INR的优势，并预测在补丁级别的形状-而不是在点级别或图像级别-使准确的局部边界划定和全球形状的一致性。对两个任务（2D息肉分割和3D腹部器官分割）的广泛评估表明，SwIPE显著改善了最近的隐式方法，并且优于最先进的离散方法，其参数减少了10倍以上。我们的方法还展示了优越的数据效率和改进的鲁棒性，跨图像分辨率和数据集的数据偏移。代码可以在Github上找到。

1.5 Learning Navigational Visual Representations with Semantic Map Supervision

基于语义地图监控的导航视觉表征学习

https://arxiv.org/abs/2307.12335

在这里插入图片描述
能够感知环境的语义和空间结构对于家用机器人的视觉导航至关重要。然而，大多数现有的作品只采用预先训练的视觉骨干，无论是独立的图像分类或自监督学习方法，以适应室内导航域，忽略了空间关系，是必不可少的学习导航。受人类在导航过程中自然地在大脑中构建语义和空间意义的认知地图的行为的启发，在本文中，我们提出了一种新的导航特定的视觉表示学习方法，通过对比代理的自我中心的观点和语义地图（Ego $^2$ -Map）。我们应用可视化Transformer作为骨干编码器，并使用从大规模Habitat-Matterport 3D环境中收集的数据训练模型。地图学习将地图中紧凑而丰富的信息，如对象，结构和过渡，转移到智能体的自我中心表示中进行导航。实验表明，代理使用我们学到的表示对象目标导航优于最近的视觉预训练方法。此外，我们的表示显着提高视觉和语言导航在连续环境中的高层次和低层次的动作空间，实现新的国家的最先进的结果47% SR和41% SPL的测试服务器上。

1.6 Expediting Building Footprint Segmentation from High-resolution Remote Sensing Images via progressive lenient supervision

基于渐进式宽松监管的高分辨率遥感图像建筑物覆盖区分割

https://arxiv.org/abs/2307.12220

在这里插入图片描述
从遥感图像中分割建筑物足迹的有效性一直受到模型传递有效性的阻碍。许多现有的建筑物分割方法都是在U-Net的编码器-解码器架构上开发的，其中编码器是从在ImageNet上预先训练的新开发的骨干网络中进行微调的。然而，现有的解码器设计的沉重的计算负担阻碍了这些现代编码器网络的成功转移到遥感任务。即使是广泛采用的深度监督策略也无法缓解这些挑战，因为它在前景和背景像素混合的混合区域中存在无效损失。在本文中，我们进行了全面评估现有的解码器网络设计的建筑足迹分割，并提出了一个高效的框架表示为BFSeg，以提高学习效率和有效性。具体地，提出了一种密集连接的粗到细特征融合解码器网络，其便于跨尺度的容易且快速的特征融合。此外，考虑到在深度监督过程中下采样的地面实况中混合区域的无效性，我们提出了一种宽松的深度监督和蒸馏策略，使网络能够从深度监督中学习适当的知识。在这些进步的基础上，我们开发了一个新的建筑分割网络系列，它在各种新开发的编码器网络中始终超越了先前的作品，具有出色的性能和效率。代码将在https://github.com/HaonanGuo/BFSeg-Efficient-Building-Footprint-Segmentation-Framework上发布。

1.7 Pyramid Semantic Graph-based Global Point Cloud Registration with Low Overlap

基于金字塔语义图的低重叠全局点云配准

https://arxiv.org/abs/2307.12116

在这里插入图片描述
全局点云配准在许多机器人任务中是必不可少的，如闭环和重新定位。不幸的是，配准经常遭受点云之间的低重叠，由于遮挡和视点变化，在实际应用中经常发生。在本文中，我们提出了一个图论框架，以解决全球点云配准的问题，低重叠。为此，我们构建了一个一致性图，以促进强大的数据关联，并采用渐进的非凸性（GNC）可靠的姿态估计，以下国家的最先进的（SoTA）的方法。与以前的方法不同，我们使用语义线索来缩小密集的点云，从而减少了问题的大小。此外，我们解决的歧义所产生的一致性阈值，通过构建一个金字塔图与多级一致性阈值。然后，我们提出了一个级联的梯度上升方法来解决由此产生的最密集的团的问题，并获得多个姿态候选人的每个一致性阈值。最后，采用快速几何验证从多个姿态候选者中选择最佳估计。我们的实验，进行了自我收集的室内数据集和公共KITTI数据集，表明我们的方法实现了最高的成功率，尽管点云的低重叠和低语义质量。我们已经为这个项目开源了我们的代码https://github.com/HKUST-Aerial-Robotics/Pagor。

1.8 Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic Image Synthesis

用于语义图像合成的多尺度对比学习边缘制导遗传算法

https://arxiv.org/abs/2307.12084

在这里插入图片描述
我们提出了一种新的ECGAN具有挑战性的语义图像合成任务。虽然社区在最近一段时间内取得了相当大的改进，但由于三个基本上未解决的挑战，合成图像的质量远不能令人满意。1)语义标签不提供详细的结构信息，使得合成局部细节和结构具有挑战性; 2）广泛采用的CNN操作（诸如卷积、下采样和归一化）通常导致空间分辨率损失，并且因此不能完全保留原始语义信息，从而导致语义不一致的结果（例如，丢失小物件）; 3）现有的语义图像合成方法集中于从单个输入语义布局建模“局部”语义信息。然而，它们忽略了多个输入语义布局的“全局”语义信息，即，跨不同输入布局的像素之间的语义交叉关系。为了解决1），我们提出使用边缘作为中间表示，其被进一步采用以经由所提出的注意力引导的边缘转移模块来引导图像生成。针对2），我们设计了一个有效的模块，根据原始语义布局选择性地突出类相关特征映射，以保留语义信息。为了解决3），受对比学习中当前方法的启发，我们提出了一种新的对比学习方法，其目的是强制属于相同语义类的像素嵌入生成比来自不同类别的像素嵌入更多相似的图像内容。我们进一步提出了一种新的多尺度对比学习方法，旨在推动来自不同尺度的同类特征更紧密地结合在一起，能够通过明确地探索来自不同尺度的多个输入语义布局的标记像素的结构来捕捉更多的语义关系。

1.9 Self-Supervised and Semi-Supervised Polyp Segmentation using Synthetic Data

基于合成数据的自监督和半监督息肉分割

https://arxiv.org/abs/2307.12033

在这里插入图片描述
结肠直肠息肉的早期检测对于其治疗和结肠直肠癌预防至关重要。计算机视觉技术有可能在诊断阶段帮助专业人员，其中手动进行结肠镜检查以检查患者的整个结肠。医学成像中的主要挑战是缺乏数据，并且特定于息肉分割方法的进一步挑战是手动标记可用数据的困难：用于分割任务的注释过程非常耗时。虽然最新的方法解决了数据可用性的挑战与复杂的技术，以更好地利用可用的标记数据，他们很少探索自我监督或半监督的范例，其中所需的标记量大大减少。为了解决这两个挑战，我们利用合成数据，并提出了一个端到端的息肉分割模型，该模型集成了真实和合成数据，人为地增加数据集的大小，并在未标记样本可用时帮助训练。具体来说，我们的模型Pl-CUT-Seg使用图像到图像转换模块转换合成图像，并将所得图像与真实图像相结合以训练分割模型，在该模型中，我们使用模型预测作为伪标签以更好地利用未标记的样本。此外，我们提出了PL-CUT-Seg+，这是模型的一个改进版本，它结合了有针对性的正则化来解决真实图像和合成图像之间的域差距。模型在息肉分割的标准基准上进行评估，并在自监督和半监督设置中达到最先进的结果。

1.10 Flight Contrail Segmentation via Augmented Transfer Learning with Novel SR Loss Function in Hough Space

Hough空间基于新SR损失函数的增广转移学习的飞行轨迹分割

https://arxiv.org/abs/2307.12032

在这里插入图片描述
航空运输带来了重大的环境挑战，特别是飞行尾迹对气候变化的贡献，因为它们可能对全球变暖产生影响。从卫星图像中检测飞机尾迹一直是一个长期的挑战。传统的计算机视觉技术在不同的图像条件下具有局限性，并且使用典型卷积神经网络的机器学习方法受到手动标记的轨迹数据集和轨迹定制学习过程的稀缺性的阻碍。在本文中，我们介绍了一种基于增强迁移学习的创新模型，该模型可以用最少的数据准确地检测出尾迹。我们还提出了一种新的损失函数，SR损失，提高了轨迹线检测，通过将图像空间到霍夫空间。我们的研究为航空研究中基于机器学习的轨迹检测开辟了新的途径，为缺乏大型手动标记数据集提供了解决方案，并显着增强了轨迹检测模型。

1.11 COLosSAL: A Benchmark for Cold-start Active Learning for 3D Medical Image Segmentation

冷启动主动学习在三维医学图像分割中的应用

https://arxiv.org/abs/2307.12004

在这里插入图片描述
医学图像分割是医学图像分析中的一个关键任务。近年来，基于深度学习的方法在完全注释的数据集上训练时表现出了出色的性能。然而，数据注释通常是一个显著的瓶颈，特别是对于3D医学图像。主动学习（AL）是一个有前途的解决方案，有效的注释，但需要一个初始的一组标记的样本开始主动选择。当整个数据池未标记时，我们如何选择要注释的样本作为初始集？这也被称为冷启动AL，它只允许一次请求专家注释的机会，而不访问先前注释的数据。冷启动AL在许多实际场景中是高度相关的，但一直未被充分探索，特别是对于需要大量注释努力的3D医学分割任务。在本文中，我们提出了一个基准测试名为COLosSAL通过评估六个冷启动AL战略的5个3D医学图像分割任务，从公共医疗分割迪卡侬收集。我们进行全面的性能分析，并探讨冷启动AL的重要开放问题，如预算对不同策略的影响。我们的研究结果表明，冷启动AL仍然是一个未解决的问题，3D分割任务，但已经观察到一些重要的趋势。完整基准测试的代码存储库、数据分区和基线结果可在https://github.com/MedICL-VU/COLosSAL上公开获得。

1.12 Morphology-inspired Unsupervised Gland Segmentation via Selective Semantic Grouping

基于选择语义分组的无监督形态腺体分割

https://arxiv.org/abs/2307.11989

在这里插入图片描述
设计用于腺体分割的深度学习算法对于自动癌症诊断和预后至关重要，但昂贵的注释成本阻碍了这项技术的发展和应用。在本文中，我们首次尝试探索一种用于无监督腺体分割的深度学习方法，其中不需要手动注释。现有的无监督语义分割方法在腺体图像上遇到了巨大的挑战：他们要么将腺体过度分割成许多片段，要么通过将许多片段与背景混淆来对腺体区域进行欠分割。为了克服这一挑战，我们的关键见解是引入一个经验线索腺体形态作为额外的知识，以指导分割过程。为此，我们提出了一种新的形态学启发的方法，通过选择性语义分组。我们首先利用经验线索，选择性地挖掘出的建议，腺体子区域的外观变化。然后，一个形态感知语义分组模块总结的整体信息腺体明确分组的语义，其子区域的建议。通过这种方式，最终的分割网络可以学习关于腺体的全面知识，并产生良好描绘的完整预测。我们在GlaS数据集和CRAG数据集上进行了实验。我们的方法超过了第二个最好的同行超过10.56%，在mIOU。

1.13 Pick the Best Pre-trained Model: Towards Transferability Estimation for Medical Image Segmentation

选择最佳预训练模型：面向医学图像分割的可转移性估计

https://arxiv.org/abs/2307.11958

在这里插入图片描述
迁移学习是训练深度神经网络的关键技术，用于需要大量资源的具有挑战性的医学图像分割任务。随着医学图像数据的丰富，许多研究机构发布了在各种数据集上训练的模型，这些数据集可以形成一个巨大的候选源模型池供选择。因此，估计源模型的可移植性（即，在不同下游任务之间进行概括的能力），以实现适当和有效的模型重用。为了弥补迁移学习在医学图像分割中应用的不足，本文提出了一种新的可迁移性估计（TE）方法。我们首先分析了使用现有的TE算法进行医学图像分割的缺点，然后设计了一个无源TE框架，同时考虑类的一致性和功能多样性，以更好地估计。大量的实验表明，我们的方法超越了目前所有的算法在医学图像分割的可转移性估计。代码可在https://github.com/EndoluminalSurgicalVision-IMR/CCFV获得.

1.14 Automatic lobe segmentation using attentive cross entropy and end-to-end fissure generation

使用注意交叉熵和端到端裂缝生成的自动肺叶分割

https://arxiv.org/abs/2307.12634

在这里插入图片描述
肺叶自动分割算法对于肺部疾病的诊断和治疗具有重要意义，但由于肺部CT图像中肺裂的不完整性和病理特征的多变性，使得肺叶自动分割算法面临很大的挑战。因此，我们提出了一个新的自动肺叶分割框架，其中我们敦促模型在训练过程中注意肺裂周围的区域，这是通过特定于任务的损失函数来实现的。此外，我们在辅助肺裂分割任务中引入了一种端到端的肺裂生成方法，无需任何额外的网络分支。最后，我们提出了一个基于配准的损失函数，以减轻收敛困难的骰子损失监督肺裂分割任务。我们在私有数据集STLB和公共LUNA16数据集上分别实现了97.83%和94.75%的骰子得分。

1.15 Sparse annotation strategies for segmentation of short axis cardiac MRI

用于短轴心脏MRI分割的稀疏标注策略

https://arxiv.org/abs/2307.12619

在这里插入图片描述
短轴心脏MRI分割是一个充分研究的主题，在监督设置中通过最先进的模型实现了出色的结果。然而，注释MRI体积是耗时且昂贵的。许多不同的方法（例如迁移学习、数据增强、Few-Shot学习等）已经出现在努力使用更少的注释数据，并且仍然实现与完全监督模型类似的性能。然而，据我们所知，这些作品都没有关注MRI体积的哪些切片对于注释产生最佳分割结果是最重要的。在本文中，我们研究了稀疏体积训练的效果，即。减少注释的病例的数量，以及稀疏注释，即从而减少了每种情况下注释的切片的数量。我们使用最先进的nnU-Net模型在两个公共数据集上评估分割性能，以确定哪些切片是最重要的注释。我们已经证明，在显著减少的数据集（48个注释体积）上进行训练可以给出大于0.85的Dice分数，并且结果与使用完整数据集（每个数据集分别为160和240个体积）相当。通常，与在更多体积上训练相比，在更多切片注释上训练提供更有价值的信息。此外，从体积的中间注释切片在分割性能方面产生最有益的结果，并且顶端区域最差。在评估注释卷与切片之间的权衡时，注释尽可能多的切片而不是注释更多的卷是一种更好的策略。

1.16 Prototype-Driven and Multi-Expert Integrated Multi-Modal MR Brain Tumor Image Segmentation

原型驱动多专家集成的多模式磁共振脑肿瘤图像分割

https://arxiv.org/abs/2307.12180

在这里插入图片描述
对于多模态磁共振（MR）脑肿瘤图像分割，现有的方法通常直接从输入图像中提取区分特征，用于肿瘤子区域类别确定和定位。然而，肿瘤子区域相互包含所引起的信息混叠的影响往往被忽视。此外，现有方法通常不采取定制的努力来突出单个肿瘤子区域特征。为此，提出了一种基于肿瘤原型驱动和多专家融合的多模态MR脑肿瘤分割方法。它可以在肿瘤原型的指导下突出每个肿瘤子区域的特征。具体来说，为了获得具有完整信息的原型，我们提出了一种相互传输机制，将不同的模态特征相互传输，以解决单模态特征信息不足所带来的问题。此外，我们设计了一个原型驱动的特征表示和融合方法与学习的原型，植入的原型到肿瘤的功能，并产生相应的激活地图。利用激活图，可以突出显示与原型类别一致的子区域特征。设计了一种多专家融合的关键信息增强与融合策略，进一步提高了分割性能。该策略可以集成来自额外特征提取网络的不同层的特征和由原型突出的特征。在三个竞争性脑肿瘤分割数据集上的实验结果证明了该方法的优越性。

1.17 DHC: Dual-debiased Heterogeneous Co-training Framework for Class-imbalanced Semi-supervised Medical Image Segmentation

DHC：类不平衡半监督医学图像分割的双去偏异质联合训练框架

https://arxiv.org/abs/2307.11960

在这里插入图片描述
3D医学图像的体积标记需要专业知识并且耗时;因此，半监督学习（SSL）对于利用有限的标记数据进行训练是非常期望的。不平衡的类分布是一个严重的问题，瓶颈的现实世界中的应用，这些方法，但没有得到解决。为了解决这个问题，我们提出了一种新的双去偏异构协同训练（DHC）框架的半监督三维医学图像分割。具体来说，我们提出了两种损失加权策略，即分布感知的去偏加权（DistDW）和难度感知的去偏加权（DiffDW），它们动态地利用伪标签来指导模型解决数据和学习偏差。该框架通过共同训练这两个不同且准确的子模型来显着改进。我们还介绍了更有代表性的基准类不平衡的半监督医学图像分割，这可以充分证明类不平衡设计的有效性。实验表明，我们提出的框架带来显着的改进，使用伪标签去偏置和减轻类不平衡的问题。更重要的是，我们的方法优于国家的最先进的SSL方法，展示了我们的框架更具挑战性的SSL设置的潜力。代码和型号可在以下网址获得：https://github.com/xmed-lab/DHC。

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（7 月 25 日论文合集）