文章目录

一、检测相关(7篇)
二、分割|语义相关(7篇)

一、检测相关(7篇)

1.1 T-UNet: Triplet UNet for Change Detection in High-Resolution Remote Sensing Images

T-UNET：用于高分辨率遥感图像变化检测的三重UNET

https://arxiv.org/abs/2308.02356

遥感图像变化检测的目的是识别同一地区不同时间获取的图像之间的差异。它广泛应用于土地管理、环境监测、灾害评估等领域。目前，大多数变化检测方法是基于暹罗网络结构或早期融合结构。Siamese结构侧重于提取不同时刻的目标特征，但缺乏对变化信息的关注，从而导致虚警和漏检。早期融合（EF）结构侧重于提取不同阶段图像融合后的特征，但忽略了不同时刻目标特征对检测变化细节的重要性，使得难以准确识别变化目标的边缘。为了解决这些问题，并获得更准确的结果，我们提出了一种新的网络，三元组UNet（T-UNet），基于一个三分支编码器，这是能够同时提取的对象特征和变化之间的前和后的时间相位图像通过三重编码器的功能。为了有效地交互和融合三重编码器的三个分支提取的特征，我们提出了一个多分支的空间-频谱交叉注意模块（MBSSCA）。在解码阶段，引入通道注意机制（CAM）和空间注意机制（SAM），充分挖掘和整合浅层的细节纹理信息和深层的语义定位信息。

1.2 Deep Semantic Model Fusion for Ancient Agricultural Terrace Detection

用于古农业梯田检测的深层语义模型融合

https://arxiv.org/abs/2308.02225

在沙漠地区发现古代农业梯田对于监测地球表面的长期气候变化具有重要意义。然而，传统的地面勘测既昂贵又规模有限。随着航空和卫星数据的可访问性越来越高，机器学习技术在考古景观的自动检测和识别方面具有很大的潜力。本文提出了一种用于古农业梯田检测的深度语义模型融合方法。输入数据包括航空图像和激光雷达生成的内盖夫沙漠地形特征。两个深度语义分割模型，即DeepLabv3+和UNet，具有EfficientNet主干，被训练和融合，以提供古代梯田和墙壁的分割图。该方法在国际人工智能考古挑战赛中获得了一等奖。代码可在https://github.com/wangyi111/international-archaeology-ai-challenge获取。

1.3 Balanced Classification: A Unified Framework for Long-Tailed Object Detection

平衡分类：一种长尾目标检测的统一框架

https://arxiv.org/abs/2308.02213

传统的检测器在处理长尾数据时，由于对大多数头部类别的分类偏差，性能下降。在本文中，我们认为，学习偏见源于两个因素：1）由前景类别的不平衡分布引起的不平等竞争，以及2）尾部类别中缺乏样本多样性。为了解决这些问题，我们引入了一个统一的框架，称为平衡分类（BACL），它能够自适应纠正的不平等的类别分布和动态强化样本多样性在同步的方式。具体而言，一种新的前景分类平衡损失（FCBL）的开发，以改善主导的头部类别和转移注意力难以区分的类别引入成对的类感知边际和自动调整的权重项，分别。这种损失防止了在不平等竞争的背景下对尾部类别的过度抑制。此外，我们提出了一个动态的特征超分辨率模块（FHM），它通过合成超分辨率样本来引入额外的数据方差，从而增强了特征空间中尾部类别的表示。在这种分而治之的方法中，BACL通过解耦的训练管道在具有挑战性的LVIS基准上设置了一个新的最先进的技术，在整体和尾部类别上超过了具有ResNet-50-FPN的vanilla Faster R-CNN 5.8% AP和16.1% AP。大量的实验表明，BACL在具有不同骨干和架构的各种数据集上始终实现性能改进。代码和型号可在https://github.com/Tianhao-Qi/BACL获得。

1.4 Synthetic outlier generation for anomaly detection in autonomous driving

用于自动驾驶异常检测的合成离群点生成

https://arxiv.org/abs/2308.02184

异常检测或离群值检测是各种领域中的关键任务，用于识别显著偏离已建立模式或大部分数据的实例。在自动驾驶的背景下，识别异常对于防止安全关键事件尤为重要，因为深度学习模型通常会对异常或离群样本表现出过度自信。在这项研究中，我们探讨了不同的策略训练图像语义分割模型与异常检测模块。通过对最先进的DenseHybrid模型的训练阶段进行修改，我们在异常检测方面实现了显着的性能改进。此外，我们提出了一个简化的检测器，实现了与我们的修改后的DenseHybrid方法相当的结果，同时也超过了原来的DenseHybrid模型的性能。这些研究结果表明，我们提出的策略，在自动驾驶的背景下，提高异常检测的有效性。

1.5 Attention-Driven Lightweight Model for Pigmented Skin Lesion Detection

注意力驱动的轻量级皮肤色素性病变检测模型

https://arxiv.org/abs/2308.02119

这项研究提出了一个轻量级的管道皮肤病变检测，解决了不平衡的类分布和微妙的或非典型的一些病变的外观所带来的挑战。该流水线是围绕一个轻量级模型构建的，该模型利用重影特征和DFC注意机制来降低计算复杂度，同时保持高性能。该模型在HAM 10000数据集上进行训练，该数据集包括各种类型的皮肤病变。为了解决数据集中的类别不平衡，使用了合成少数过采样技术和各种图像增强技术。该模型还采用了基于知识的损失加权技术，该技术在类级别和实例级别为损失函数分配不同的权重，帮助模型专注于少数类和具有挑战性的样本。这种技术涉及在两个级别上为损失函数分配不同的权重-类级别和实例级别。通过应用适当的损失权重，该模型更加关注少数类和挑战性样本，从而提高其正确检测和分类不同皮肤病变的能力。该模型实现了92.4%的准确度，84.2%的精确度，86.9%的召回率，85.4%的f1评分，在识别良性角化病样病变（BKL）和痣（NV）方面具有特别强的性能。尽管其优越的性能，该模型的计算成本大大低于一些模型的准确性较低，使其成为一个最佳的解决方案，为现实世界中的应用程序的准确性和效率都是必不可少的。

1.6 HOOD: Real-Time Robust Human Presence and Out-of-Distribution Detection with Low-Cost FMCW Radar

Hood：利用低成本FMCW雷达实现实时、稳健的人员存在和偏离分布检测

https://arxiv.org/abs/2308.02396

由于室内环境中存在运动和静止杂波，毫米波调频连续波雷达在室内环境中进行人体存在检测具有挑战性。这项工作提出了“HOOD”作为一个实时鲁棒的人的存在和分布（OOD）的检测方法，利用60 GHz的近程FMCW雷达。我们的方法存在检测应用程序作为一个OOD检测问题，并解决这两个问题，同时使用一个单一的流水线。我们的解决方案依赖于基于重建的架构，并与雷达宏观和微观距离多普勒图像（RDIs）一起工作。HOOD的目的是准确地检测人类的“存在”，在存在或不存在移动和静止的干扰。由于它也是一个OOD检测器，它的目的是检测移动或静止的杂波在人类不存在的情况下作为OOD，并预测当前场景的输出为“不存在”。“HOOD是一种无活动的方法，在不同的人类场景中表现良好。在我们收集的数据集与60 GHz短程FMCW雷达，我们实现了94.36%的平均AUROC。此外，我们广泛的评估和实验表明，HOOD优于国家的最先进的（SOTA）OOD检测方法在共同的OOD检测指标。我们的实时实验可在以下网站获得：https://muskahya.github.io/HOOD

1.7 Diffusion Models for Counterfactual Generation and Anomaly Detection in Brain Images

脑图像反事实生成和异常检测的扩散模型

https://arxiv.org/abs/2308.02062

病理区域的分割掩模在许多医学应用中是有用的，诸如脑肿瘤和中风管理。此外，患病图像的健康反事实可以用于增强放射科医师的训练文件并提高分割模型的可解释性。在这项工作中，我们提出了一个弱监督的方法来生成一个健康的版本的患病图像，然后用它来获得一个像素的异常图。为此，我们首先考虑用ACAT获得的近似覆盖病理区域的显著性图。然后，我们提出了一种技术，允许对这些区域进行有针对性的修改，同时保留图像的其余部分。特别地，我们采用在健康样本上训练的扩散模型，并在采样过程的每个步骤中结合去噪扩散概率模型（DDPM）和去噪扩散隐式模型（DDIM）。DDPM用于修改显著图内受病变影响的区域，而DDIM保证重建显著图外的正常解剖结构。这两个部分也在每个时间步融合，以保证生成具有连贯外观的样本以及编辑和未编辑部分之间的无缝过渡。我们验证，当我们的方法被应用到健康的样本，输入图像重建没有显着的修改。我们将我们的方法与IST-3上用于中风病变分割的替代弱监督方法和BraTS 2021上用于脑肿瘤分割的替代弱监督方法进行比较，其中我们将最佳竞争方法的DICE评分从0.6534 $提高到0.7056 $。

二、分割|语义相关(7篇)

2.1 Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

卷积硬汉：使用单个冻结卷积片段的开放词汇切分

https://arxiv.org/abs/2308.02487

开放式词汇分割是一项具有挑战性的任务，需要从一组开放的类别中分割和识别对象。解决这一挑战的一种方法是利用多模态模型（如CLIP）在共享嵌入空间中提供图像和文本特征，从而弥合封闭词汇和开放词汇识别之间的差距。因此，现有方法通常采用两阶段框架来解决该问题，其中输入首先通过掩码生成器，然后通过CLIP模型以及预测的掩码。这个过程涉及多次从图像中提取特征，这可能是无效和低效的。相比之下，我们建议使用共享的冻结卷积CLIP主干将所有内容构建到单阶段框架中，这不仅显着简化了当前的两阶段流水线，而且还显着产生了更好的精度-成本权衡。所提出的FC-CLIP受益于以下观察结果：冻结的CLIP主干保持开放词汇分类的能力，并且还可以用作强掩码生成器，并且卷积CLIP很好地推广到比在对比图像-文本预训练期间使用的分辨率更大的输入分辨率。当仅对COCO全景数据进行训练并以zero-shot方式进行测试时，FC-CLIP在ADE 20 K上实现26.8 PQ、16.8 AP和34.1 mIoU，在Mapillary Vistas上实现18.2 PQ、27.9 mIoU，在Cityscapes上实现44.0 PQ、26.8 AP、56.2 mIoU，分别在ADE 20 K上实现+4.2 PQ、+2.4 AP、+4.2 mIoU，在Mapillary Vistas上实现+4.0 PQ，在Cityscapes上实现+20.1 PQ。另外，FC-CLIP的训练和测试时间比相同的现有技术显著快7.5倍和6.6倍，同时使用少5.9倍的参数。FC-CLIP还在各种开放词汇语义分割数据集上设置了新的最先进的性能。代码https://github.com/bytedance/fc-clip

2.2 On the Calibration of Uncertainty Estimation in LiDAR-based Semantic Segmentation

基于LiDAR的语义切分中不确定性估计的校正

https://arxiv.org/abs/2308.02248

基于深度学习的感知模型的置信度校准对其可靠性起着至关重要的作用。特别是在自动驾驶的背景下，预测和规划等下游任务取决于准确的置信度估计。在像语义分割这样的逐点多类分类任务中，模型必须处理严重的类不平衡。由于其代表性不足，具有较小实例的类的置信度校准具有挑战性，但不仅出于安全原因，也是必要的。我们提出了一个度量来衡量的信心校准质量的语义分割模型相对于个别类。它是通过计算稀疏曲线的基础上的不确定性估计为每个类。我们使用分类校准度量来评估不确定性估计方法相对于他们的置信度校准的代表性不足的类。此外，我们还建议该方法的双重用途，以自动查找标签问题，以提高手工或自动注释数据集的质量。

2.3 Learning Referring Video Object Segmentation from Weak Annotation

从弱标注中学习参考视频对象分割

https://arxiv.org/abs/2308.02162

参考视频对象分割（RVOS）是一项任务，旨在分割目标对象在所有的视频帧的基础上描述的对象的句子。以前的RVOS方法已经取得了显着的性能与密集注释的数据集，其建设是昂贵的和耗时的。为了减轻数据注释的负担，同时保持足够的监督分割，我们提出了一个新的注释方案，在该方案中，我们标记的帧中的对象第一次出现的掩模，并使用边界框的后续帧。基于这个方案，我们提出了一种方法来学习这个弱注释。具体来说，我们设计了一个跨帧分割方法，它使用语言引导的动态过滤器，彻底利用宝贵的掩码注释和边界框。我们进一步开发了一个双层次的对比学习方法，鼓励模型学习的像素级的歧视性表示。大量的实验和烧蚀分析表明，我们的方法是能够达到竞争性的性能，而不需要密集的掩模注释。该代码将在https://github.com/wangbo-zhao/WRVOS/上获得。

2.4 Rethinking Class Activation Maps for Segmentation: Revealing Semantic Information in Shallow Layers by Reducing Noise

重新思考用于分割的类激活图：通过降低噪声来揭示浅层的语义信息

https://arxiv.org/abs/2308.02118

类激活映射被广泛用于解释深度神经网络。由于其突出感兴趣区域的能力，近年来它已发展成为弱监督学习的关键步骤。类激活映射的性能的主要限制是卷积神经网络的最后一层中的特征映射的小空间分辨率。因此，我们期望生成高分辨率的特征图，从而产生高质量的语义信息。在本文中，我们重新思考浅层特征映射的语义信息的属性。我们发现，浅层特征图仍然具有细粒度的非区分性特征，而混合相当大的非目标噪声。此外，我们提出了一种简单的基于梯度的去噪方法，通过截断正梯度来过滤噪声。我们提出的方案可以很容易地部署在其他CAM相关的方法，促进这些方法，以获得更高质量的类激活地图。我们通过一个弱监督的语义分割任务来评估所提出的方法，大量的实验证明了我们的方法的有效性。

2.5 Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation

多交互特征学习和全时多通道图像融合与分割基准

https://arxiv.org/abs/2308.02097

多模态图像融合和分割在自动驾驶和机器人操作中起着至关重要的作用。早期的努力集中在提高一个任务的性能，\n {例如，}融合或分割，使其难以达到“两全其美”。为了克服这个问题，在本文中，我们提出了一个\textbf{M}ulti-\textbf{i} interactive\textbf{F}特征学习架构，用于图像融合和\textbf{Seg}mentation，即SegMiF，并利用双任务相关性来提高这两个任务的性能。SegMiF为级联结构，包含融合子网络和常用分割子网络。通过巧妙地桥接两个组件之间的中间特征，从分割任务中学习到的知识可以有效地辅助融合任务。此外，受益的融合网络支持分割一个执行更自命不凡。此外，一个分层的交互式注意力块的建立，以确保两个任务之间的所有重要信息的细粒度映射，使模态/语义特征可以充分的相互作用。此外，引入动态权值因子，自动调整各任务对应的权值，平衡交互特征对应关系，突破费力调优的局限。此外，我们构建了一个智能的多波双目成像系统，并收集了一个全职的多模态基准与15注释像素级类别的图像融合和分割。在几个公共数据集和我们的基准上进行的大量实验表明，所提出的方法输出视觉上吸引人的融合图像，并在现实世界的场景中比最先进的方法平均执行 $7.66\%$ 更高的分割mIoU。源代码和基准测试可在\url{https：//github.com/JinyuanLiu-CV/SegMiF}获得。

2.6 UGainS: Uncertainty Guided Anomaly Instance Segmentation

UGainS：不确定性引导的异常实例分割

https://arxiv.org/abs/2308.02046

道路上的一个意外物体可能导致事故或可能导致受伤。为了防止这种情况，我们需要一种可靠的机制来发现道路上的异常物体。这项被称为异常分割的任务可以成为安全可靠的自动驾驶的垫脚石。当前的方法通过向每个像素分配异常分数并且通过使用简单的启发式对异常区域进行分组来解决异常分割。然而，像素分组是一个限制因素，当它来评估个别异常对象的分割性能。为了解决将多个异常实例分组为一个的问题，我们提出了一种产生准确的异常实例掩码的方法。我们的方法集中在一个分布的分割模型，用于识别不确定的区域和一个强大的通才分割模型的异常实例分割。我们研究如何使用不确定的区域来指导这样的分割模型来执行异常实例的分割。通过将强大的对象先验从一个通才模型，我们还提高了每像素的异常分割性能。我们的方法优于当前的像素级异常分割方法，分别在Fishyscapes Lost and Found和RoadAnomaly验证集上实现了80.08%和88.98%的AP。项目页面：https://vision.rwth-aachen.de/ugains

2.7 Brain MRI Segmentation using Template-Based Training and Visual Perception Augmentation

基于模板训练和视觉增强的脑MRI分割

https://arxiv.org/abs/2308.02363

深度学习模型通常需要足够的训练数据来实现高精度，但获得标记数据可能是耗时且劳动密集型的。在这里，我们介绍了一种基于模板的训练方法，仅使用一个人口平均的脑MRI模板及其相关的分割标签从头开始训练3D U-Net模型。该过程结合了视觉感知增强，以增强模型在处理不同图像输入和减轻过拟合方面的鲁棒性。利用这种方法，我们训练了小鼠，大鼠，狨猴，恒河猴和人脑MRI的3D U-Net模型，以实现分割任务，如头骨剥离，大脑分割和组织概率映射。该工具有效地解决了训练数据的有限可用性，并在图像分析中扩展深度学习应用方面具有巨大潜力，为研究人员提供了一个统一的解决方案，只需一个图像样本即可训练深度神经网络。

【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递（8 月 7 日论文合集）