一、分割|语义相关(9篇)

1.1 Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation

用于视频对象分割的特征、对应和压缩记忆的联合建模

https://arxiv.org/abs/2308.13505

当前流行的视频对象分割方法通常在提取当前帧和参考帧的特征后进行密集匹配。一方面，解耦建模仅在高级别特征空间限制目标信息传播。另一方面，逐像素匹配导致缺乏对目标的整体理解。为了克服这些问题，我们提出了一个统一的VOS框架，CointFormer，联合建模的三个要素的功能，通信和压缩内存。核心设计是联合块，利用注意力的灵活性，同时提取特征和传播的目标信息的当前令牌和压缩内存令牌。该方案允许执行广泛的信息传播和判别特征学习。为了将长期的时间目标信息，我们还设计了一个定制的在线更新机制的压缩内存令牌，它可以促使信息流沿时间维度，从而提高全局建模能力。在该设计下，我们的方法在DAVIS 2017 val/test-dev（89.7%和87.6%）和YouTube-VOS 2018/2019 val（87.0%和87.0%）基准测试中实现了新的最先进性能，大大优于现有作品。

1.2 RestNet: Boosting Cross-Domain Few-Shot Segmentation with Residual Transformation Network

RESTNet：基于残差变换网络的跨域小镜头分割

https://arxiv.org/abs/2308.13469

跨域Few-Shot分割（CD-FSS）的目的是实现语义分割在以前看不见的领域与有限数量的注释样本。虽然现有的CD-FSS模型侧重于跨域的特征转换，完全依赖于域间的知识转移可能会导致关键的域内信息的丢失。为此，我们提出了一种新的残差变换网络（RestNet），有利于知识转移，同时保留域内支持查询特征信息。具体来说，我们提出了一个语义增强锚变换（SEAT）模块，映射功能到一个稳定的域不可知的空间，使用先进的语义。此外，域内残差增强（IRE）模块被设计为在新的空间中保持原始判别空间的域内表示。我们还提出了一种基于原型融合的掩模预测策略，以帮助模型逐步学习如何分割。我们的RestNet可以从域间和域内传输跨域知识，而不需要额外的微调。在ISIC、胸部X射线和FSS-1000上的大量实验表明，我们的RestNet实现了最先进的性能。我们的代码将很快可用。

1.3 SVQNet: Sparse Voxel-Adjacent Query Network for 4D Spatio-Temporal LiDAR Semantic Segmentation

SVQNet：用于4D时空LiDAR语义分割的稀疏体素邻接查询网络

https://arxiv.org/abs/2308.13323

基于LiDAR的语义感知任务对于自动驾驶来说至关重要，但也具有挑战性。由于物体的运动和静态/动态遮挡，时间信息通过增强和完善单帧知识在增强感知方面起着至关重要的作用。以前的方法要么直接将历史帧堆叠到当前帧，要么使用KNN构建4D时空邻域，这重复了计算并阻碍了实时性能。基于我们的观察，堆叠所有的历史点会损害性能，由于大量的冗余和误导性的信息，我们提出了稀疏体素相邻查询网络（SVQNet）的4D激光雷达语义分割。为了高效地利用历史框架，我们以当前点为参照，将历史点分成两组。一种是携带局部增强知识的体素相邻邻域。另一个是历史语境，它完成了全球性知识。然后，我们提出了新的模块来选择和提取的两组有指导意义的功能。我们的SVQNet在SemanticKITTI基准和nuScenes数据集的LiDAR语义分割中实现了最先进的性能。

1.4 Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation

整合方框和蒙版：一种用于统一视觉跟踪和分割的多对象框架

https://arxiv.org/abs/2308.13266

在空间上和时间上跟踪任何给定对象是视觉对象跟踪（VOT）和视频对象分割（VOS）中的共同目的。联合跟踪和分割已经在一些研究中尝试，但它们通常在初始化和预测中缺乏框和掩模的完全兼容性，并且主要集中在单对象场景中。为了解决这些局限性，本文提出了一个多对象掩模框集成框架，统一的跟踪和分割，被称为MITS。首先，提出了统一的识别模块，以支持框和掩模的初始化参考，其中详细的对象信息推断框或直接从掩模保留。此外，提出了一种新的精确定位框预测器，用于准确的多对象框预测，便于面向目标的表示学习。所有目标对象从编码到传播和解码被同时处理，作为用于VOT和VOS的统一流水线。实验结果表明，MITS实现了最先进的性能在VOT和VOS基准。值得注意的是，MITS在GOT-10 k测试集上超过了最好的先前VOT竞争对手约6%，并显着提高了VOS基准测试的框初始化性能。该代码可在https://github.com/yoxu515/MITS上获得。

1.5 Self-supervised Scene Text Segmentation with Object-centric Layered Representations Augmented by Text Regions

文本区域增强的以对象为中心的分层表示的自监督场景文本分割

https://arxiv.org/abs/2308.13178

文本分割任务有着非常广泛的应用价值，如图像编辑、风格转移、水印去除等。然而，现有的公共数据集质量差的像素级标签，已被证明是众所周知的昂贵获取，无论是在金钱还是时间方面。同时，在对合成数据集进行预训练时，合成数据集的数据分布与真实场景中的数据分布相差甚远。针对现有的像素级文本分割算法提出了一种自监督的场景文本分割算法，该算法基于以对象为中心的分层解耦，将图像分割为文本和背景。在我们的方法中，我们提出了两个新的设计，包括区域查询模块和表示一致性约束适应文本的独特属性作为补充的自动编码器，提高了网络对文本的敏感性。对于这种独特的设计，我们把文本本地化模型预测的多边形级掩码作为额外的输入信息，而不是利用任何像素级掩码注释进行训练阶段，也没有在合成数据集上进行预训练。大量的实验表明了所提出的方法的有效性。在几个公共场景文本数据集上，我们的方法优于最先进的无监督分割算法。

1.6 Interactive segmentation in aerial images: a new benchmark and an open access web-based tool

航空图像的交互式分割：一种新的基准和开放获取的基于网络的工具

https://arxiv.org/abs/2308.13174

近年来，深度学习已成为遥感应用中的一种强大方法，特别是在分割和分类技术中，这些技术在从卫星和航空图像中提取重要的土地特征方面发挥着至关重要的作用。然而，只有有限数量的论文讨论了在土地覆盖分类任务中使用深度学习进行交互式分割。在这项研究中，我们的目标是通过对各种基于深度学习的交互式分割模型进行基准研究，弥合交互式分割和遥感图像分析之间的差距。我们评估了五个国家的最先进的交互式分割方法（SimpleClick，FocalClick，迭代点击损失（ICL），复兴迭代训练与掩模指导交互式分割（RITM），段任何（SAM））的性能在两个高分辨率航空影像数据集。为了在不需要多个模型的情况下增强分割结果，我们引入了级联向前细化（CFR）方法，这是一种用于交互式分割的创新推理策略。我们评估了这些交互式分割方法在各种土地覆盖类型，对象大小，和波段组合的遥感。令人惊讶的是，普遍讨论的方法，SAM，被证明是无效的遥感图像。相反，在SimpleClick模型中使用的基于点的方法在所有实验中始终优于其他方法。基于这些发现，我们开发了一个专用的在线工具，称为RSISeg的互动分割遥感数据。RSISeg采用了一个性能良好的交互式模型，与遥感数据进行微调。此外，我们将SAM模型集成到该工具中。与现有的交互式分割工具相比，RSISeg提供了强大的交互性，可修改性和适应性的遥感数据。

1.7 An investigation into the impact of deep learning model choice on sex and race bias in cardiac MR segmentation

心脏MR分割中深度学习模式选择对性别和种族偏见影响的研究

https://arxiv.org/abs/2308.13415

在医学成像中，人工智能（AI）越来越多地用于自动化日常任务。然而，这些算法可能会表现出并加剧偏见，导致不同的受保护群体之间的性能。我们研究了模型选择对训练数据集中受试者性别和种族不平衡如何影响基于AI的电影心脏磁共振图像分割的影响。我们评估了三个基于卷积神经网络的模型和一个Vision Transformer模型。我们发现显着的性别偏见的四个模型中的三个和所有的模型中的种族偏见。然而，偏差的严重程度和性质在模型之间存在差异，这突出了在尝试为医学成像任务训练公平的基于AI的分割模型时模型选择的重要性。

1.8 Bang and the Artefacts are Gone! Rapid Artefact Removal and Tissue Segmentation in Haematoxylin and Eosin Stained Biopsies

砰的一声，文物不见了！苏木精-伊红染色活检中伪影的快速去除和组织分割

https://arxiv.org/abs/2308.13304

我们提出了H&E大津阈值，一个计划，用于快速检测组织在整个幻灯片图像（WSIs），消除了广泛的不良文物，如笔标记和扫描文物。我们的方法涉及到获得一个低放大率的RGB概览图像，使简单的大津阈值分离组织从背景和文物的双模态表示。我们证明了我们的方法WSI准备从广泛的机构和WSI数字扫描仪，每个包含大量的文物，导致其他方法失败。我们的方法的美妙之处在于它的简单：操纵RGB颜色空间和使用Otsu阈值允许快速去除伪影和分割组织。

1.9 CompaCT: Fractal-Based Heuristic Pixel Segmentation for Lossless Compression of High-Color DICOM Medical Images

紧凑：基于分形的启发式像素分割在高彩色DICOM医学图像无损压缩中的应用

https://arxiv.org/abs/2308.13097

医学图像压缩是一个广泛研究的数据处理领域，由于其在现代数字数据库中的流行。该域需要每像素分量12位的高色深，以便医生进行准确分析，主要是DICOM格式。经由滤波的标准的基于光栅的图像压缩是公知的;然而，由于非专门的实现，它在医学领域中仍然是次优的。本研究提出了一种无损医学图像压缩算法CompaCT，其目的是针对空间特征和模式的像素浓度的动态增强数据处理。该算法采用分形像素遍历，结合像素块分割和网格划分的新方法进行预处理。此外，增量和熵编码应用于该概念，以获得完整的压缩流水线。该建议表明，通过分形分割预处理实现的数据压缩产生增强的图像压缩结果，同时保持无损的重建精度。CompaCT在3954次高彩色CT扫描上的压缩比与工业标准压缩技术（即，JPEG2000、RLE、ZIP、PNG）。它的重建性能进行评估与错误度量，以验证无损图像恢复后的解压缩。结果表明，CompaCT可以压缩和无损重建医学图像，比工业标准压缩系统节省37%的空间效率。

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 28 日论文合集）

文章目录