文章目录

一、检测相关(15篇)

一、检测相关(15篇)

1.1 Diving with Penguins: Detecting Penguins and their Prey in Animal-borne Underwater Videos via Deep Learning

与企鹅一起潜水：通过深度学习在动物携带的水下视频中检测企鹅和它们的猎物

https://arxiv.org/abs/2308.07267

非洲企鹅（Spheniscus demersus）是濒危物种。关于它们的水下狩猎策略和相关的捕食成功率知之甚少，但这对于指导保护至关重要。现代生物测井技术有可能提供有价值的见解，但手动分析来自动物携带的视频记录器（AVR）的大量数据是耗时的。在本文中，我们发布了一个动物携带的企鹅水下视频数据集，并介绍了一个可随时部署的深度学习系统，能够稳健地检测企鹅（[email protected]%）和鱼类（[email protected]%）。我们注意到，探测器明显受益于气泡学习，以提高准确性。扩展这个检测器朝向双流行为识别网络，我们还提供了第一个结果，用于识别企鹅水下视频捕食行为。虽然结果是有希望的，需要进一步的工作，在现场场景中的捕食行为检测的有用的适用性。总之，我们提供了一个高度可靠的水下企鹅探测器，鱼类探测器，以及一个有价值的第一次尝试，自动视觉检测复杂的海洋捕食者的行为。我们发布网络，DivingWithPenguins视频数据集，注释，分割和权重，以供从业者完全重现和立即使用。

1.2 Towards Robust Real-Time Scene Text Detection: From Semantic to Instance Representation Learning

面向稳健的实时场景文本检测：从语义到实例表示学习

https://arxiv.org/abs/2308.07202

基于自底向上分割的方法由于其对任意形状场景文本的灵活表示和简单的流水线处理能力，逐渐成为实时场景文本检测的主流方法。尽管取得了很大的进展，这些方法显示出鲁棒性的不足，仍然遭受误报和实例粘附。不同于现有的方法，集成多粒度的功能或多个输出，我们诉诸的角度表示学习，利用辅助任务，使编码器共同学习鲁棒的功能与优化过程中的每像素分类的主要任务。对于语义表示学习，我们提出了全局密集语义对比（GDSC），其中提取一个向量用于全局语义表示，然后用于执行元素的密集网格特征对比。为了学习实例感知表示，我们建议将自顶向下建模（TDM）与自底向上框架相结合，为编码器提供隐式实例级线索。利用所提出的GDSC和TDM，编码器网络学习更强的表示，而无需在推理期间引入任何参数和计算。配备了一个非常轻的解码器，检测器可以实现更强大的实时场景文本检测。在四个公共数据集上的实验结果表明，该方法在准确性和速度上都优于或接近于现有的方法。具体而言，所提出的方法在单个GeForce RTX 2080 Ti GPU上实现了87.2%的F-测量，在Total-Text上实现了48.2 FPS，在MSRA-TD 500上实现了89.6%的F-测量，在36.9 FPS。

1.3 Survey on video anomaly detection in dynamic scenes with moving cameras

运动摄像机动态场景中的视频异常检测综述

https://arxiv.org/abs/2308.07050

紧凑型和廉价的相机越来越受欢迎，例如~仪表板照相机、身体照相机和机器人上配备的照相机已经引起了对检测由移动照相机记录的动态场景内的异常的日益增长的兴趣。然而，现有的审查主要集中在假设静态摄像机的视频异常检测（VAD）方法。具有移动摄像机的VAD文献仍然支离破碎，迄今为止缺乏全面的评论。为了解决这一差距，我们努力提出了第一个关于移动摄像机视频异常检测（MC-VAD）的全面调查。我们深入研究与MC-VAD相关的研究论文，批判性地评估其局限性并强调相关挑战。我们的探索包括三个应用领域：安全、城市交通和海洋环境，这反过来又涉及六项具体任务。我们编制了一个涵盖四个不同环境的25个公开可用数据集的广泛列表：水下、水面、地面和空中。我们总结了这些数据集对应或包含的异常类型，并提出了五个主要类别的方法检测这种异常。最后，我们确定了未来的研究方向，并讨论了新的贡献，可以推进MC-VAD领域。通过这项调查，我们的目标是提供一个有价值的参考，为研究人员和从业人员努力开发和推进国家的最先进的MC-VAD方法。

1.4 PatchContrast: Self-Supervised Pre-training for 3D Object Detection

PatchContrast：3D目标检测的自监督预训练

https://arxiv.org/abs/2308.06985

准确地检测环境中的物体是自动驾驶车辆的关键挑战。然而，获得用于检测的注释数据是昂贵且耗时的。我们介绍PatchContrast，一种用于3D对象检测的新型自监督点云预训练框架。我们建议利用两个抽象层次来学习来自未标记数据的判别表示：建议级和补丁级。提议级的目的是将对象相对于其周围环境进行本地化，而补丁级添加了关于对象组件之间的内部连接的信息，从而基于其各个组件来区分不同的对象。我们演示了如何将这些级别集成到各种骨干的自监督预训练中，以增强下游3D检测任务。我们表明，我们的方法优于现有的国家的最先进的模型在三个常用的3D检测数据集。

1.5 PV-SSD: A Projection and Voxel-based Double Branch Single-Stage 3D Object Detector

PV-SSD：一种基于投影和体素的双分支单级三维物体探测器

https://arxiv.org/abs/2308.06791

基于LIDAR的3D物体检测和分类对于自动驾驶至关重要。然而，从极其稀疏的3D数据实时推断构成了巨大的挑战。为了解决这个问题，一种常见的方法是将点云投影到鸟瞰图或透视图上，有效地将它们转换成类似图像的数据格式。然而，这种对点云数据的过度压缩往往会导致信息的丢失。提出了一种基于体素和投影双分支特征提取的三维目标检测器（PV-SSD），以解决信息丢失的问题。在特征提取阶段，加入包含丰富局部语义信息的体素特征输入，并与投影特征充分融合，减少投影造成的局部信息损失。与以前的工作相比，取得了良好的性能。此外，本文还做出了以下贡献：1）提出了一种可变感受野的体素特征提取方法; 2）采用加权采样的特征点采样方法，过滤出更有利于检测任务的特征点; 3）在SSFA模型的基础上提出了MSSFA模型。为了验证我们的方法的有效性，我们设计了比较实验。

1.6 Target before Shooting: Accurate Anomaly Detection and Localization under One Millisecond via Cascade Patch Retrieval

射击前目标：通过级联补丁检索在1毫秒内精确异常检测和定位

https://arxiv.org/abs/2308.06748

在这项工作中，通过重新检查“匹配”的性质异常检测（AD），我们提出了一个新的AD框架，同时享有新的记录AD的准确性和显着的高运行速度。在这个框架中，异常检测问题的解决，通过级联补丁检索过程，检索最近的邻居为每个测试图像补丁在一个由粗到细的方式。给定测试样本，首先基于鲁棒直方图匹配过程选择前K个最相似的训练图像。其次，通过使用精心训练的局部度量，在这些“全局最近邻”上的相似几何位置上检索每个测试块的最近邻。最后，每个测试图像块的异常得分计算的基础上的距离，其“本地最近的邻居”和“非背景”的概率。所提出的方法被称为“级联补丁检索”（CPR）在这项工作中。与传统的基于块匹配的AD算法不同，CPR在“拍摄”（块匹配）之前选择适当的“目标”（参考图像和位置）。在公认的MVTec AD，BTAD和MVTec-3D AD数据集上，所提出的算法始终优于所有比较SOTA方法的显着利润率，由各种AD指标测量。此外，CPR非常有效。它在标准设置下以113 FPS的速度运行，而其简化版本只需要不到1 ms的时间来处理图像，代价是微不足道的精度下降。CPR的代码可在https://github.com/flyinghu123/CPR获得。

1.7 Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection

伪装图像合成是提高伪装检测所需的全部内容

https://arxiv.org/abs/2308.06701

混入自然场景中的伪装对象对深度学习模型的检测和合成提出了重大挑战。虽然伪装目标检测是计算机视觉中的一项重要任务，但由于数据的可用性有限，这一研究课题受到限制。我们提出了一个框架，合成伪装数据，以提高在自然场景中的伪装对象的检测。我们的方法采用生成模型来产生逼真的伪装图像，这可以用来训练现有的目标检测模型。具体来说，我们使用一个伪装环境生成器监督的伪装分布分类合成的伪装图像，然后送入我们的发电机扩大数据集。我们的框架优于目前最先进的三个数据集（COD10k，CAMO和CHAMELEON）的方法，证明了其有效性，在改善伪装对象检测。这种方法可以作为一个即插即用的数据生成和增强模块，现有的伪装对象检测任务，并提供了一种新的方式来引入更多的多样性和分布到当前的伪装数据集。

1.8 Tiny and Efficient Model for the Edge Detection Generalization

一种微小而高效的边缘检测泛化模型

https://arxiv.org/abs/2308.06468

大多数高级计算机视觉任务依赖于低级图像操作作为其初始过程。诸如边缘检测、图像增强和超分辨率的操作为更高级别的图像分析提供了基础。在这项工作中，我们解决边缘检测考虑三个主要目标：由于当前技术水平（SOTA）边缘检测模型的复杂性增加以获得更好的准确性，因此简化、效率和通用性。为了实现这一点，我们提出了微小而高效的边缘检测器（TEED），这是一个光卷积神经网络，只有5.8万美元的参数，不到最先进模型的0.2美元%。在BIPED数据集上进行训练所需时间不到30分钟，而每个纪元所需时间不到5分钟。我们提出的模型很容易训练，它在最初的几个时期内迅速收敛，而预测的边缘地图是清晰和高质量的。此外，我们提出了一个新的数据集来测试边缘检测的泛化，其中包括样本从流行的图像边缘检测和图像分割。源代码可在https://github.com/xavysp/TEED中获得。

1.9 Improved YOLOv8 Detection Algorithm in Security Inspection Image

一种改进的安检图像YOLOv8检测算法

https://arxiv.org/abs/2308.06452

安检是保障人民生命财产安全的第一道防线，智能化安检是未来安检行业发展的必然趋势。针对X射线图像检测过程中存在的检测对象重叠、违禁品误检、漏检等问题，提出一种基于YOLOv 8 s的改进X射线违禁品检测算法CSS-YOLO。

1.10 M&M: Tackling False Positives in Mammography with a Multi-view and Multi-instance Learning Sparse Detector

M&M：用多视角多实例学习稀疏检测器处理乳房X光摄影中的假阳性

https://arxiv.org/abs/2308.06420

基于深度学习的对象检测方法显示出改善筛查乳腺X射线摄影的前景，但高假阳性率可能会阻碍其在临床实践中的有效性。为了减少误报，我们确定了三个挑战：（1）与自然图像不同，恶性乳房X线照片通常仅包含一个恶性发现;（2）乳房X线摄影检查包含每个乳房的两个视图，并且应该考虑两个视图以做出正确的评估;（3）大多数乳房X光检查结果为阴性，不包含任何发现。在这项工作中，我们通过以下方式应对上述三个挑战：（1）利用稀疏R-CNN并且示出稀疏检测器比密集检测器更适合于乳房X射线照相术;（2）包括多视图交叉注意模块以综合来自不同视图的信息;（3）结合多实例学习（MIL）以利用未注释图像进行训练并执行乳房级别分类。由此产生的模型M&M是一个多视图和多实例学习系统，既可以定位恶性结果，又可以提供乳房水平预测。我们验证了M&M的检测和分类性能使用五个乳房X光摄影数据集。此外，我们通过全面的消融研究证明了每个申报组件的有效性。

1.11 Improving Pseudo Labels for Open-Vocabulary Object Detection

一种改进的开放词汇目标检测伪标记法

https://arxiv.org/abs/2308.06412

最近的研究表明，开放词汇对象检测（OVD）使用伪标签（PL）预训练视觉和语言模型（VLM）的前景良好的性能。然而，由于VLM的预训练目标与OVD之间的差距，由VLM生成的PL是非常嘈杂的，这阻碍了PL的进一步发展。在本文中，我们的目标是减少在PL的噪声，并提出了一种方法称为在线自训练和分裂和融合头OVD（SAS-Det）。首先，自训练微调VLMs以生成高质量的PL，同时防止忘记在预训练中学到的知识。第二，一个分裂和融合（SAF）头的设计，以消除噪声，在现有的方法中，这通常被忽略的定位的PL。它还融合了从精确的地面真相和噪声伪标签学习的互补知识，以提高性能。大量的实验表明SAS-Det是一种高效和有效的方法。我们的伪标记比现有方法快3倍。SAS-Det明显优于相同规模的现有最先进模型，并在COCO和LVIS基准的新类别上分别达到37.4 AP $_{50}$ 和27.3 AP $_r$ 。

1.12 Detecting and Preventing Hallucinations in Large Vision Language Models

检测和预防大视觉语言模型中的幻觉

https://arxiv.org/abs/2308.06394

指令调整的大视觉语言模型（LVLM）在跨各种多模态任务的泛化方面取得了重大进展，特别是对于视觉问答（VQA）。然而，生成详细的响应，视觉接地仍然是这些模型的一项具有挑战性的任务。我们发现，即使是目前最先进的LVLM（InstructBLIP）仍然包含惊人的30%的幻觉文本，其形式是不存在的对象，不忠实的描述和不准确的关系。为了解决这个问题，我们介绍了M-HalDetect，一个{M}多模态{Hal}发光{Detect}离子数据集，可用于训练和基准模型，用于幻觉检测和预防。M-HalDetect由VQA示例上的16 k个细粒度标签组成，使其成为第一个用于详细图像描述的全面多模态幻觉检测数据集。不像以前的工作，只考虑对象幻觉，我们另外注释实体描述和关系是不忠实的。为了证明该数据集在偏好对齐方面的潜力，我们提出了细粒度的直接偏好优化，以及训练细粒度的多模态奖励模型，并使用n中最佳拒绝采样来评估其有效性。我们对DPO和拒绝采样进行了人类评估，发现它们分别将幻觉率降低了41%和55%，比基线有了显着改善。

1.13 Towards Packaging Unit Detection for Automated Palletizing Tasks

面向自动化码垛作业的包装单元检测

https://arxiv.org/abs/2308.06306

对于各种自动化码垛任务，包装单元的检测是工业机器人实际处理包装单元之前的关键步骤。我们提出了一种方法来解决这个具有挑战性的问题，该方法在合成生成的数据上进行了充分的训练，并且可以鲁棒地应用于任意现实世界的包装单元，而无需进一步的训练或设置工作。所提出的方法是能够处理稀疏和低质量的传感器数据，可以利用先验知识，如果可用，以及推广到广泛的产品和应用场景。为了展示我们的方法的实际应用，我们对各种不同零售产品的真实数据进行了广泛的评估。此外，我们将我们的方法集成在实验室演示器中，并将通过工业合作伙伴销售商业解决方案。

1.14 Out-of-distribution multi-view auto-encoders for prostate cancer lesion detection

用于前列腺癌病变检测的离散型多视角自动编码器

https://arxiv.org/abs/2308.06481

基于监督学习范式的传统深度学习（DL）方法需要大量注释数据，而这些注释数据在医学领域中很少可用。无监督分布外（OOD）检测是需要较少注释数据的替代方案。此外，OOD应用程序利用医疗数据中常见的类偏斜度。磁共振成像（MRI）已被证明可用于前列腺癌（PCa）诊断和管理，但当前的DL方法依赖于T2w轴向MRI，其具有低平面外分辨率。我们提出了一种多流方法，以适应不同的T2w方向，以提高性能的PCa病变检测的OOD方法。我们在公开的数据集上评估了我们的方法，与单向方法相比，在AUC方面获得了更好的检测结果（73.1 vs 82.3）。我们的研究结果显示了基于MRI的PCa病变检测的OOD方法的潜力。

1.15 Deep Learning-Based Open Source Toolkit for Eosinophil Detection in Pediatric Eosinophilic Esophagitis

基于深度学习的儿童嗜酸性食管炎嗜酸细胞检测开源工具包

https://arxiv.org/abs/2308.06333

嗜酸性食管炎（EoE）是一种慢性、免疫/抗原介导的食管疾病，其特征在于与食管功能障碍相关的症状和嗜酸性粒细胞显性炎症的组织学证据。由于成像中EoE的复杂显微表征，当前的方法，这依赖于人工识别不仅是劳动密集型的，而且也容易不准确。在这项研究中，我们开发了一个开源工具包，命名为Open-EoE，通过Docker使用一行命令执行端到端的整个幻灯片图像（WSI）水平的嗜酸性粒细胞（Eos）检测。具体来说，该工具包支持三种最先进的基于深度学习的对象检测模型。此外，Open-EoE通过实施集成学习策略进一步优化了性能，并提高了我们的结果的精度和可靠性。实验结果表明，Open-EoE工具包可以在289个WSI的测试集上有效地检测Eos。在用于诊断EoE的广泛接受的>= 15 Eos/高倍视野（HPF）的阈值下，Open-EoE实现了91%的准确性，显示出与病理学家评估的良好一致性。这表明了将机器学习方法集成到EoE诊断过程中的一个有前途的途径。Docker和源代码已在https://github.com/hrlblab/Open-EoE公开。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 15 日论文合集）