一、检测相关(7篇)

1.1 Detecting Out-of-Context Image-Caption Pairs in News: A Counter-Intuitive Method

新闻中断章取义的图片-字幕检测：一种反直觉的方法

https://arxiv.org/abs/2308.16611

社交媒体和新闻中错误信息和重新语境化媒体的增长导致对事实核查方法的需求日益增加。同时，生成模型的进步使得Cheapfake和Deepfake更容易制作，也更难检测。在本文中，我们提出了一种新的方法，使用生成的图像模型，我们的优势，检测出的上下文（OOC）使用的图像字幕对新闻。我们提出了两个新的数据集，使用两种不同的生成模型，包括（1）DALL-E 2，和（2）稳定扩散生成的图像共6800美元。我们相信，本文提出的方法可以进一步研究Cheapfake检测领域的生成模型，并且所得数据集可用于训练和评估旨在检测Cheapfake的新模型。我们运行了一个初步的定性和定量分析，以评估每个图像生成模型的性能，这项任务，并评估了一些计算图像相似性的方法。

1.2 Unsupervised Recognition of Unknown Objects for Open-World Object Detection

开放世界目标检测中未知目标的非监督识别

https://arxiv.org/abs/2308.16527

开放世界对象检测（OWOD）将对象检测问题扩展到现实和动态场景，其中检测模型需要能够检测已知和未知对象，并且增量地学习新引入的知识。目前的OWOD模型，如ORE和OW-DETR，专注于伪标记的区域具有高的对象分数为未知数，其性能在很大程度上依赖于已知对象的监督。虽然它们可以检测到表现出与已知对象相似特征的未知对象，但它们遭受严重的标签偏差问题，即它们倾向于检测与已知对象不相似的所有区域（包括未知对象区域）作为背景的一部分。为了消除标签偏差，本文提出了一种新的方法，学习一个无监督的判别模型，以识别真正的未知对象从原始的伪标签产生的无监督区域建议方法。所得到的模型可以进一步细化的分类免费的自我训练方法，迭代扩展伪未知对象的未标记的区域。实验结果表明，我们的方法1）在检测未知对象方面显着优于先前的SOTA，同时保持在MS COCO数据集上检测已知对象类的竞争性能，2）在LVIS和Objects 365数据集上实现了更好的泛化能力。

1.3 MS23D: A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layers

MS23D：一种基于多尺度语义特征点构建三维特征层的三维目标检测方法

https://arxiv.org/abs/2308.16518

激光雷达点云作为一种具有精确距离感知的数据，可以有效地表示物体在三维空间中的运动和姿态。然而，点云的稀疏性和无序性使得直接从点云中提取特征具有挑战性。许多研究已经解决了这个问题，点云转换成规则的体素表示。然而，这些方法往往导致细粒度局部特征信息的丢失，由于下采样。此外，点云的稀疏性构成了困难，有效地聚合3D特征层中的功能使用基于体素的两阶段方法。为了解决这些问题，本文提出了一种称为MS$^{{2}$3D的两阶段3D检测框架。在MS$}{2}$3D中，我们利用小尺寸的体素来提取细粒度的局部特征，并利用大尺寸的体素来捕获长范围的局部特征。此外，我们提出了一种使用多尺度语义特征点构建3D特征层的方法，使稀疏的3D特征层转换成更紧凑的表示。此外，我们还计算了3D特征层中的特征点与对象质心之间的偏移量，旨在使它们尽可能接近对象的中心。它显著地提高了特征聚合的效率。为了验证我们的方法的有效性，我们评估了我们的方法在KITTI数据集和ONCE数据集一起。

1.4 Domain Adaptive Synapse Detection with Weak Point Annotations

基于弱点标注的域自适应突触检测

https://arxiv.org/abs/2308.16461

基于学习的方法的发展极大地提高了从电子显微镜（EM）图像中检测突触。然而，为每个数据集训练模型是耗时的，并且需要大量的注释。此外，由于数据分布的变化，难以将学习模型应用于来自不同大脑区域的数据。在本文中，我们提出了AdaSyn，一个两阶段的分割为基础的框架域自适应突触检测与薄弱点注释。在第一阶段中，我们解决了检测问题，利用基于分割的管道，以获得突触实例掩码。在第二阶段，我们通过重新生成方形掩码来获得高质量的伪标签，从而提高模型在目标数据上的泛化能力。得益于我们的高精度检测结果，我们引入距离最近的原则来匹配成对的突触前和突触后。在ISBI 2023的WASPSYN挑战中，我们的方法排名第一。

1.5 3D vision-based structural masonry damage detection

基于三维视觉的结构砌体损伤检测

https://arxiv.org/abs/2308.16380

砌体结构损伤的检测对于防止潜在的灾难性后果是必不可少的。然而，人工检查可能花费很长时间并且对人类检查员是危险的。使用新型计算机视觉和机器学习算法的检查过程的自动化可以是一种更有效和安全的解决方案，以防止砌体结构的进一步恶化。大多数现有的基于二维视觉的方法局限于定性损伤分类、二维定位和平面内量化。在这项研究中，我们提出了一种基于三维视觉的方法，准确的砌体损伤检测，它提供了一个更强大的解决方案，具有更大的视野，视觉深度，并能够在复杂的环境中检测故障。首先，收集砌体样本的图像以生成3D点云。其次，三维点云处理方法的发展，以评估砌体损伤。我们证明了我们的方法的有效性，通过对结构砌体构件的实验。实验结果表明，该系统可以有效地分类损伤状态和定位和量化的关键损伤特征。结果表明，该方法可以提高砌体结构检测的自主性水平。

1.6 Two-Stage Violence Detection Using ViTPose and Classification Models at Smart Airports

基于ViTPose和分类模型的智能机场两阶段暴力检测

https://arxiv.org/abs/2308.16325

这项研究介绍了一个创新的暴力检测框架，以适应智能机场的独特要求，迅速应对暴力情况至关重要。所提出的框架利用ViTPose的力量进行人体姿势估计。它采用CNN - BiLSTM网络来分析关键点序列中的空间和时间信息，从而能够实时准确地分类暴力行为。该解决方案无缝集成在SAAB的SAFE（增强安全的态势感知框架）中，经过了集成测试，以确保在真实场景中具有强大的性能。AIRTLab数据集，其特点是其高视频质量和相关性的监控场景，在这项研究中被利用，以提高模型的准确性和减少误报。随着机场在后疫情时代面临着人流增加，实施人工智能驱动的暴力检测系统（如拟议的系统）对于提高安全性、加快响应时间和促进数据知情决策至关重要。实施这一框架不仅减少了暴力事件的可能性，而且还有助于监测小组有效应对潜在威胁，最终促进一个更安全和更受保护的航空部门。代码可在：https://github.com/Asami-1/GDP。

1.7 Object Detection for Caries or Pit and Fissure Sealing Requirement in Children’s First Permanent Molars

儿童第一恒磨牙龋坑目标检测及窝沟封闭要求

https://arxiv.org/abs/2308.16551

龋齿是最常见的口腔疾病之一，如果不治疗，可导致各种口腔问题。儿童是恒磨牙窝沟龋的高危人群。窝沟封闭术是预防窝沟龋最有效的方法之一。但目前对窝沟或龋齿的检测主要依靠经验丰富的牙医，普通家长不具备，如果不及时检测，孩子可能会错过补救治疗。为了解决这个问题，我们提出了一种方法来自动检测龋齿和窝沟封闭的要求，使用由智能手机拍摄的口腔照片。我们使用YOLOv 5和YOLOX模型，并采用平铺策略，以减少图像预处理过程中的信息丢失。具有平铺策略的YOLOXs模型的最佳结果为72.3mAP.5，而没有平铺策略的最佳结果为71.2。具有/不具有平铺的YOLOv 5s 6模型分别达到70.9/67.9mAP.5。我们将预先训练好的网络部署到移动设备上，作为微信小程序，允许父母或儿童监护人在家进行检测。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（9 月 1 日论文合集）

文章目录