【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（12 月 5 日论文合集）（下）

文章目录

1.10 Learning Efficient Unsupervised Satellite Image-based Building Damage Detection

基于学习的高效无监督卫星图像建筑物损伤检测

https://arxiv.org/abs/2312.01576

现有的建筑物损伤检测（BDD）方法通常需要对建筑物及其状况进行劳动密集型的像素级注释，从而在很大程度上限制了其应用。在本文中，我们研究了一个具有挑战性的，但实际的情况下，BDD，无监督建筑物损坏检测（U-BDD），其中只有未标记的灾前和灾后卫星图像对提供。作为试点研究，我们首先提出了一个先进的U-BDD基线，它利用了预先训练的视觉语言基础模型（即，接地DINO，SAM和CLIP），以解决U-BDD任务。然而，卫星和通用图像之间的明显领域差距导致用于识别建筑物及其损坏的基础模型的置信度较低。作为回应，我们进一步提出了一种新的自我监督的框架，U-BDD++，它通过解决与卫星图像相关的特定领域的问题，提高了U-BDD基线。此外，U-BDD++中新的建筑方案生成（BPG）模块和启用CLIP的噪音建筑方案选择（CLIP-BPS）模块确保了高质量的自我培训。在广泛使用的建筑物损伤评估基准上的大量实验表明了该方法在无监督建筑物损伤检测中的有效性。所提出的无注释和基于基础模型的范例确保了有效的学习阶段。这项研究为现实世界的BDD开辟了一个新的方向，并为未来的研究奠定了坚实的基础。

1.11 Boosting Object Detection with Zero-Shot Day-Night Domain Adaptation

利用零点昼夜域自适应增强目标检测

https://arxiv.org/abs/2312.01220

在低光场景中检测物体是一个持续的挑战，因为在光线充足的数据上训练的检测器由于低可见度而在低光数据上表现出显着的性能下降。以前的方法通过研究使用低光图像数据集的图像增强或对象检测技术来缓解这个问题。然而，与收集和注释低光图像相关的固有困难阻碍了这一进展。为了应对这一挑战，我们建议使用zero-shot昼夜域自适应来提高低光目标检测，其目的是将检测器从光线充足的场景推广到低光场景，而不需要真正的低光数据。我们首先设计了一个反射率表示学习模块，通过精心设计的光照不变性增强策略来学习图像中基于Retinex的光照不变性。接下来，引入了一个重分解相干过程，通过执行两个顺序的图像分解并引入重分解相干损失来改进香草Retinex图像分解过程。在ExDark、DARK FACE和CODaN数据集上的大量实验表明，我们的方法具有很强的弱光泛化能力。

1.12 A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection

一种新的基于基础模型的遥感变化检测学习范式

https://arxiv.org/abs/2312.01163

变化检测是观测和分析土地覆盖动态过程的关键。尽管许多基于深度学习的CD模型表现出色，但它们的进一步性能改进受到从给定标记数据中提取的有限知识的限制。另一方面，最近出现的基础模型通过跨数据模式和代理任务扩展而包含了大量的知识。在本文中，我们提出了一个双时态适配器网络（BAN），这是一个通用的基础模型为基础的CD适应框架，旨在提取基础模型的知识CD。建议的BAN包含三个部分，即冻结地基模型（例如，CLIP）、双时态适配器分支（Bi-TAB）以及它们之间的桥接模块。具体来说，Bi-TAB可以是现有的任意CD模型，也可以是一些手工制作的堆叠块。桥接模块被设计为将一般特征与任务/领域特定特征对齐，并将所选择的一般知识注入Bi-TAB。据我们所知，这是第一个使基础模式适应裁谈会任务的通用框架。大量的实验表明，我们的BAN在提高现有CD方法（例如，高达4.08%的IoU改进），仅具有一些额外的可学习参数。更重要的是，这些成功的实践向我们展示了遥感光盘基础模型的潜力。该代码可在\url{https：//github.com/likyoo/BAN}获得，并将在我们的Open-CD \url{https：//github.com/likyoo/open-cd}中得到支持。

1.13 Has Anything Changed? 3D Change Detection by 2D Segmentation Masks

有什么变化吗？基于2D分割模板的3D变化检测

https://arxiv.org/abs/2312.01148

随着捕获设备变得普遍，每天都要获取内部空间的3D扫描。通过随时间的场景比较，推断出关于场景中的对象及其变化的信息。这些信息对于机器人、AR和VR设备非常重要，以便在沉浸式虚拟体验中操作。因此，我们提出了一种无监督的对象发现方法，识别添加，移动或删除的对象，而没有任何先验知识的对象存在于场景中。我们将这个问题建模为3D变化检测和2D分割任务的组合。我们的算法利用通用的2D分割掩模来细化初始但不完整的3D变化检测集。通过渲染和比较获得的初始变化可能对应于可移动物体。通过图优化，提取3D空间中的2D分割掩模的信息，改进不完全检测。在3Rscan数据集上的实验证明，我们的方法优于竞争基线，具有SoTA结果。

1.14 Spectrum-driven Mixed-frequency Network for Hyperspectral Salient Object Detection

光谱驱动混频网络用于高光谱显著目标检测

https://arxiv.org/abs/2312.01060

高光谱显著目标检测（HSOD）旨在检测高光谱图像（HSI）中的光谱显著目标。然而，现有的方法不充分利用光谱信息，无论是转换为假彩色图像或收敛神经网络与聚类。我们提出了一种新的方法，充分利用频谱特性，从频谱中提取两个不同的频率分量：低频频谱显着性和高频频谱边缘。谱显著性近似显著对象的区域，而谱边缘捕获显著对象的边缘信息。这两个互补的组成部分，HSOD的关键，来自计算层间的光谱角距离的高斯金字塔和内邻域光谱角梯度，分别。为了有效地利用这种双频信息，我们引入了一种新的轻量级频谱驱动的混合频率网络（SMN）。SMN结合了两个无参数的即插即用算子，即频谱显著性生成器和频谱边缘算子，以从输入HSI中独立地提取频谱显著性和频谱边缘分量。随后，由两个频率相关头部组成的混合频率注意力模块智能地组合边缘和显著性信息的嵌入特征，从而产生混合频率特征表示。此外，显著性边缘感知解码器逐步放大混合频率特征，同时保留丰富的细节和显著性信息，以进行准确的显著对象预测。在HS-SOD基准测试和我们的自定义数据集HSOD-BIT上进行的大量实验表明，我们的SMN在HSOD性能方面优于最先进的方法。代码和数据集将在https://github.com/laprf/SMN上提供。

1.15 A Unified Framework for Connecting Noise Modeling to Boost Noise Detection

一种用于连接噪声建模以提高噪声检测的统一框架

https://arxiv.org/abs/2312.00827

噪声标签会损害模型的性能，使得研究噪声标签的学习成为一个重要的课题。两种传统的方法是噪声建模和噪声检测。然而，这两种方法通常是独立研究的，关于它们的合作的工作有限。在这项工作中，我们探讨了这两种方法的整合，提出了一个相互关联的结构与三个关键块：噪声建模，源知识识别，并增强噪声检测噪声源知识集成方法。这种协作结构提供了一些优势，例如区分硬底片，并保留可能有可疑噪音的真正干净的标签。我们在四个数据集上进行的实验，具有三种类型的噪声和每个块的不同组合，证明了这些组件协作的有效性。我们的协作结构方法在合成噪声数据集中的前1分类准确率提高了10%，在真实噪声数据集中提高了3-5%。结果还表明，这些组件在不同的噪声情况下的整体性能作出了不同的贡献。这些发现为设计未来针对特定噪声场景定制的噪声标签学习方法提供了有价值的见解。我们的代码对公众开放。

1.16 Talent-Interview: Web-Client Cheating Detection for Online Exams

才艺面试：在线考试的网络客户端作弊检测

https://arxiv.org/abs/2312.00795

新冠肺炎疫情之后，在线考试更具吸引力。此外，在招聘过程中，还使用了在线考试。然而，在线考试有更多的作弊可能性。每次考试都要找一个监考人，这会增加成本。在这一点上，自动监考系统检测可能的作弊状态。本文提出了一个端到端的系统和子模块，以获得更好的效果，在线监考。在我们的系统中使用的对象检测，人脸识别，人类的语音检测和分割。此外，我们提出的模型适用于用户的PC，这意味着基于客户端的系统。因此，消除了服务器成本。据我们所知，这是第一次使用基于客户端的在线监考系统进行招聘。新冠肺炎疫情之后，在线考试更具吸引力。此外，在招聘过程中，还使用了在线考试。然而，在线考试有更多的作弊可能性。每次考试都要找一个监考人，这会增加成本。在这一点上，自动监考系统检测可能的作弊状态。本文提出了一个端到端的系统和子模块，以获得更好的效果，在线监考。在我们的系统中使用的对象检测，人脸识别，人类的语音检测和分割。此外，我们提出的模型适用于用户的PC，这意味着基于客户端的系统。因此，消除了服务器成本。据我们所知，这是第一次使用基于客户端的在线监考系统进行招聘。此外，这个作弊系统在https://www.talent-interview.com/tr/上工作。

1.17 Survey on deep learning in multimodal medical imaging for cancer detection

深度学习在多模式医学成像癌症检测中的研究进展

https://arxiv.org/abs/2312.01573

多模式癌症检测的任务是利用不同的成像技术确定病变的位置和类别，是癌症诊断的关键研究方法之一。最近，基于深度学习的对象检测由于其在语义特征提取和非线性函数拟合方面的优势而取得了重大发展。然而，由于病变的形态差异、患者间变异性、注释困难和成像伪影，多模式癌症检测仍然具有挑战性。在这项调查中，我们主要调查了近年来关于使用深度学习进行多模式癌症检测的150多篇论文，重点关注数据集和各种挑战的解决方案，如数据注释，类别之间的差异，小规模病变和遮挡。我们还提供了每种方法的优点和缺点的概述。最后，我们讨论了当前的工作范围，并为多模式癌症检测的未来发展提供了方向。