文章目录

一、检测相关(8篇)
二、分割|语义相关(5篇)

一、检测相关(8篇)

1.1 Revisiting DETR Pre-training for Object Detection

重温目标检测的DETR预训练

https://arxiv.org/abs/2308.01300

基于DETR的方法已经在COCO检测和分割基准上建立了新的记录，因此最近的许多努力对如何通过以自我监督的方式预训练Transformer同时保持骨干冻结来进一步改进基于DETR的方法表现出越来越大的兴趣。一些研究已经声称准确性有了显着提高。在本文中，我们仔细研究了他们的实验方法，并检查他们的方法是否仍然有效的最新的最先进的，如 $\mathcal{H}$ -可变形的DETR。我们进行了彻底的实验COCO对象检测任务，以研究预训练数据集的选择，定位和分类目标生成方案的影响。不幸的是，我们发现以前的代表性的自我监督的方法，如DETReg，未能提高性能的强大的DETR为基础的方法对完整的数据制度。我们进一步分析了原因，发现简单地将更准确的框预测器和Objects $365$ 基准相结合可以显着改善后续实验的结果。我们证明了我们的方法的有效性，通过实现强大的目标检测结果AP= $59.3\%$ COCO值集，超过 $\mathcal{H}$ -变形DETR + Swin-L + $1.4\%$ 。最后，我们生成了一系列的合成预训练数据集，结合最近的图像到文本字幕模型（LLaVA）和文本到图像生成模型（SDXL）。值得注意的是，对这些合成数据集的预训练导致对象检测性能的显著改进。展望未来，我们预计通过合成预训练数据集的未来扩展将带来巨大的优势。

1.2 A Hyper-pixel-wise Contrastive Learning Augmented Segmentation Network for Old Landslide Detection Using High-Resolution Remote Sensing Images and Digital Elevation Model Data

基于高分辨率遥感图像和数字高程模型数据的超像素对比学习增强分割网络用于老滑坡检测

https://arxiv.org/abs/2308.01251

滑坡作为一种危害性极大的灾害，往往给人类带来巨大的损失，因此对滑坡进行可靠的检测是十分必要的。然而，传统的滑坡遥感检测方法存在视觉模糊、数据量小等问题，给滑坡遥感检测带来了很大的挑战。为了可靠地提取语义特征，提出了一种超像素对比学习增强分割网络（HPCL-Net），通过HPCL增强滑坡边界的局部显著特征提取，并融合高分辨率遥感影像和数字高程模型数据在语义空间中的异构信息。为了充分利用宝贵的样本，提出了一种基于全局超像素样本对队列的对比学习方法，该方法包括构建存储超像素样本的全局队列和动量编码器的更新方案，可靠地提高了语义特征的提取能力.在黄土高原老滑坡数据集上进行了实验，结果表明，与老滑坡分割模型相比，该模型极大地提高了老滑坡检测的可靠性，mIoU度量从0.620提高到0.651，Landslide IoU度量从0.334提高到0.394，F1-score度量从0.501提高到0.565.

1.3 WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for Fast Multispectral Pedestrian Detection

WCCNet：小波集成CNN与交叉模式重排融合快速多光谱行人检测

https://arxiv.org/abs/2308.01042

多光谱行人检测在具有挑战性的条件下实现了更好的可见性，因此在各种任务中具有广泛的应用，其中精度和计算成本都是至关重要的。大多数现有方法同等对待RGB和红外模态，通常采用两个对称的CNN主干进行多模态特征提取，这忽略了模态之间的实质性差异，为降低计算成本以及有效的跨模态融合带来了很大的困难。在这项工作中，我们提出了一种新的和高效的框架，名为WCCNet，是能够差分提取丰富的功能，不同的光谱具有较低的计算复杂度和语义重新安排这些功能，有效的跨模态融合。具体而言，离散小波变换（DWT）允许快速的推理和训练速度被嵌入到构建一个双流骨干有效的特征提取。WCCNet的DWT层提取红外模态的频率分量，而CNN层提取RGB模态的空间域特征。该方法不仅大大降低了计算复杂度，而且提高了红外特征的提取，以方便后续的跨模态融合。基于提取的特征，我们精心设计的跨模态重排融合模块（CMRF），它可以减轻空间错位和合并语义互补功能的空间相关的局部区域，以放大跨模态的互补信息。我们对KAIST和FLIR基准进行了全面的评估，其中WCCNet以相当高的计算效率和具有竞争力的准确性优于最先进的方法。我们还进行了消融研究，并彻底分析了不同组件对WCCNet性能的影响。

1.4 Three Factors to Improve Out-of-Distribution Detection

改进分布外检测的三个因素

https://arxiv.org/abs/2308.01030

在问题的分布（OOD）检测，辅助数据的使用作为离群数据进行微调已表现出令人鼓舞的性能。然而，以前的方法遭受了分类准确性（ACC）和OOD检测性能（AUROC、FPR、AUPR）之间的权衡。为了改善这种平衡，我们做出了三个贡献：（i）纳入自我知识蒸馏损失可以提高网络的准确性;（ii）采样用于训练的半硬离群数据可以在对准确性的影响最小的情况下改善OOD检测性能;（iii）引入我们新的监督对比学习可以同时提高OOD检测性能和网络的准确性。通过将所有这三个因素，我们的方法提高了准确性和OOD检测性能，通过解决分类和OOD检测之间的权衡。我们的方法在这两个性能指标上都比以前的方法有所改进。

1.5 MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection Generalization

MDT3D：用于LiDAR三维目标检测泛化的多数据集训练

https://arxiv.org/abs/2308.01000

有监督的3D对象检测模型在单域情况下表现出越来越好的性能，其中训练数据来自与测试数据相同的环境和传感器。然而，在现实世界场景中，来自目标域的数据可能不可用于微调或域自适应方法。事实上，在具有特定点分布的源数据集上训练的3D对象检测模型已经显示出推广到看不见的数据集的困难。因此，我们决定利用我们的多数据集训练3D对象检测（MDT3D）方法从几个注释源数据集中获得的信息，以提高3D对象检测模型在具有不同传感器配置的新环境中进行测试时的鲁棒性。为了解决数据集之间的标签差距，我们使用了一种基于粗糙标签的新标签映射。此外，我们还展示了如何在训练过程中管理数据集的混合，最后介绍了一种新的跨数据集增强方法：跨数据集对象注入。我们证明，这种训练模式显示了不同类型的3D对象检测模型的改进。本研究项目的源代码和其他结果将在GitHub上公开，供感兴趣的各方访问和使用：https://github.com/LouisSF/MDT3D

1.6 ForensicsForest Family: A Series of Multi-scale Hierarchical Cascade Forests for Detecting GAN-generated Faces

ForensicsForest Family：用于检测GaN生成人脸的一系列多尺度层次级联森林

https://arxiv.org/abs/2308.00964

生成模型的显著进步显著改善了生成人脸的真实性，给社会带来了严重的担忧。由于最近GAN生成的人脸具有高度真实感，伪造痕迹变得更加不易察觉，增加了取证的挑战。为了对抗GAN生成的人脸，许多基于卷积神经网络（CNN）的对策由于其强大的学习能力而应运而生。在本文中，我们重新思考这个问题，并探索一种新的方法的基础上森林模型，而不是CNN。具体来说，我们描述了一个简单有效的基于森林的方法集，称为{\em ForensicsForest Family}来检测GAN生成的人脸。ForensicsForest家族由三个变体组成，分别是{\em ForensicsForest}、{\em Hybrid ForensicsForest}和{\em Divide-and-Conquer ForensicsForest}。ForensuisForest是一种新提出的多尺度层次级联森林，它以语义、频率和生物特征为输入，分层级联不同层次的特征进行真实性预测，然后采用一种综合考虑不同层次信息的多尺度集成方案，进一步提高了性能。基于ForensicsForest，我们开发了Hybrid ForensicsForest，这是一个将CNN层集成到模型中的扩展版本，以进一步细化增强功能的有效性。此外，为了减少训练中的内存开销，我们提出了分治ForensicsForest，它可以构建一个森林模型，只使用一部分训练样本。在训练阶段，我们使用训练样本的子集训练多个候选森林模型。然后通过从这些候选森林模型中挑选合适的组件来组装ForensicsForest…

1.7 Detection and Segmentation of Cosmic Objects Based on Adaptive Thresholding and Back Propagation Neural Network

基于自适应阈值和反向传播神经网络的宇宙目标检测与分割

https://arxiv.org/abs/2308.00926

天文图像提供了关于宇宙中各种各样的宇宙物体的信息。由于天体数据量大、图像中存在着无数亮点源和噪声以及物体与卫星相机之间的空间间隙，对天体进行分类和检测是一项具有挑战性的任务。我们提出了一种基于自适应阈值方法（ATM）的分割和反向传播神经网络（BPNN）的宇宙对象检测，包括一系列结构良好的预处理步骤，旨在提高分割和检测。

1.8 Multi-task learning for classification, segmentation, reconstruction, and detection on chest CT scans

用于胸部CT扫描分类、分割、重建和检测的多任务学习

https://arxiv.org/abs/2308.01137

肺癌和新型冠状病毒是世界上发病率和死亡率最高的疾病之一。对于医生来说，在疾病的早期阶段识别病变是困难的并且耗时的。因此，多任务学习是一种从少量医学数据中提取重要特征（如病变）的方法，因为它可以更好地学习概括。我们提出了一种新的多任务框架的分类，分割，重建和检测。据我们所知，我们是第一个将检测功能添加到多任务解决方案中的公司。此外，我们检查了在分割任务中使用两个不同的主干和不同的损失函数的可能性。

二、分割|语义相关(5篇)

2.1 Data-Centric Diet: Effective Multi-center Dataset Pruning for Medical Image Segmentation

以数据为中心的饮食：用于医学图像分割的有效多中心数据集剪枝

https://arxiv.org/abs/2308.01189

本文旨在解决密集的标签问题，其中一个显着的部分数据集可以修剪，而不牺牲太多的准确性。我们观察到，在标准的医学图像分割基准，损失梯度范数为基础的指标的个人训练的例子，应用在图像分类未能识别重要的样本。为了解决这个问题，我们提出了一种数据修剪方法，考虑到训练动态目标区域使用动态平均骰子（DAD）得分。据我们所知，我们是第一批在医学图像分析领域解决密集标记任务中数据重要性的公司之一，做出了以下贡献：（1）通过严格的实证分析来调查潜在的原因;（2）确定密集标记问题中有效的数据修剪方法。我们的解决方案可以作为一个强大而简单的基线，选择重要的例子，结合数据源的医学图像分割。

2.2 DiffusePast: Diffusion-based Generative Replay for Class Incremental Semantic Segmentation

DiffusePast：基于扩散的类增量语义分割生成性回放

https://arxiv.org/abs/2308.01127

类增量语义分割（CISS）通过增量学习新添加的类扩展了传统的分割任务。以前的工作已经引入了生成重放，它涉及重放从预训练的GAN生成的旧类样本，以解决灾难性遗忘和隐私问题。然而，生成的图像缺乏语义精度，并表现出的分布特性，导致不准确的面具，进一步降低分割性能。为了解决这些挑战，我们提出了DiffusePast，这是一种新颖的框架，其特征在于基于扩散的生成重放模块，该模块生成语义准确的图像，具有由不同指令引导的更可靠的掩模（例如，文本提示或边缘图）。具体来说，DiffusePast引入了一个双生成器范式，它专注于生成与下游数据集分布一致的旧类图像，同时保留原始图像的结构和布局，从而实现更精确的掩模。为了适应新增加的类不断的新的视觉概念，我们将类明智的令牌嵌入时更新的双生成器。此外，我们将旧类的足够伪标签分配给新步骤图像中的背景像素，进一步减轻了对先前学习的知识的遗忘。通过全面的实验，我们的方法在主流基准测试中表现出竞争力，在旧类和新类的性能之间取得了更好的平衡。

2.3 Training-Free Instance Segmentation from Semantic Image Segmentation Masks

基于语义图像分割模板的免训练实例分割

https://arxiv.org/abs/2308.00949

近年来，实例分割的发展在广泛的应用中获得了极大的关注。然而，完全监督的实例分割模型的训练需要昂贵的实例级和像素级注释。相比之下，弱监督实例分割方法（即，具有图像级类标签或点标签）努力满足实际场景的准确性和召回要求。在本文中，我们提出了一种新的范例，称为无训练实例分割（TFISeg），它实现了实例分割的结果，从图像掩模预测使用现成的语义分割模型。TFISeg不需要训练语义或/和实例分割模型，并且避免了对实例级图像注释的需要。因此，它是高效的。具体地，我们首先通过训练的语义分割模型获得输入图像的语义分割掩模。然后，我们基于分割掩模计算每个像素的位移场向量，其可以指示属于相同类别但不同实例的表示，即，获取所述实例级对象信息。最后，通过可学习的类别不可知对象边界分支细化后，得到实例分割结果。在两个具有挑战性的数据集和代表性的语义分割基线（包括CNN和Transformers）上的大量实验结果表明，TFISeg可以实现与最先进的全监督实例分割方法相比具有竞争力的结果，而不需要额外的人力资源或增加的计算成本。代码可在以下网址获得：TFISeg

2.4 CMUNeXt: An Efficient Medical Image Segmentation Network based on Large Kernel and Skip Fusion

CMUNeXt：一种基于大核和Skip融合的高效医学图像分割网络

https://arxiv.org/abs/2308.01239

U形结构已经成为医学图像分割网络设计中的一个重要范例。然而，由于卷积固有的局部限制，具有U形架构的完全卷积分割网络难以有效地提取全局上下文信息，这对于精确定位病变至关重要。虽然结合CNN和Transformers的混合架构可以解决这些问题，但由于环境和边缘设备施加的计算资源约束，它们在实际医疗场景中的应用受到限制。此外，轻量级网络中的卷积归纳偏差巧妙地适应了稀缺的医疗数据，这是基于Transformer的网络所缺乏的。为了在利用归纳偏差的同时提取全局上下文信息，我们提出了CMUNeXt，这是一种高效的全卷积轻量级医学图像分割网络，可以在真实场景中实现快速准确的辅助诊断。CMUNeXt利用大内核和反向瓶颈设计，彻底混合远距离空间和位置信息，有效提取全局上下文信息。我们还介绍了跳过融合块，旨在实现平滑的跳过连接，并确保充分的功能融合。在多个医学图像数据集上的实验结果表明，CMUNeXt在分割性能方面优于现有的重量级和轻量级医学图像分割网络，同时提供更快的推理速度，更轻的权重和更低的计算成本。该代码可在https://github.com/FengheTan9/CMUNeXt获得。

2.5 Decomposing and Coupling Saliency Map for Lesion Segmentation in Ultrasound Images

基于分解和耦合显著图的超声图像病变分割

https://arxiv.org/abs/2308.00947

超声图像的复杂场景，其中相邻组织（即，背景）与病变区域共享相似的强度并且甚至包含比病变区域更丰富的纹理图案（即，前景），为准确的病变分割带来了独特的挑战。这项工作提出了一个分解耦合网络，称为DC-Net，来处理这个挑战（前景-背景）的显着图解缠融合的方式。DC-Net由分解子网和耦合子网组成，前者将原始图像初步分解为前景和背景显著图，后者在显著性先验融合的辅助下进行精确分割。耦合子网涉及三个方面的融合策略，包括：1）区域特征聚合（经由编码器中的可微上下文池化算子）以在降维期间自适应地保留具有较大感受域的局部上下文细节; 2）关系感知表示融合（经由解码器中的互相关融合模块），以在分辨率恢复期间有效地融合低级视觉特征和高级语义特征; 3）依赖性感知的先验合并（经由耦合器），以利用从背景表示导出的补充信息来加强前景突出表示。此外，引入谐波损耗函数，以鼓励网络将更多的注意力集中在低置信度和硬样本。所提出的方法进行评估，两个超声病变分割任务，这表明显着的性能改善现有的国家的最先进的方法。

【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递（8 月 3 日论文合集）