【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 21 日论文合集)

一、检测相关(15篇)

1.1 Representation Learning in Anomaly Detection: Successes, Limits and a Grand Challenge

异常检测中的表征学习:成功、局限和巨大挑战

https://arxiv.org/abs/2307.11085

在这里插入图片描述
在这篇透视论文中,我们认为异常检测中的主导范式不能无限扩展,最终将达到根本的极限。这是由于异常检测的“没有免费的午餐”原则。当存在强任务优先级时,可以克服这些限制,如许多工业任务的情况。当这样的先验不存在时,异常检测的任务要困难得多。我们提出了两个这样的任务作为异常检测的巨大挑战:i)通过异常检测的科学发现ii)检测ImageNet数据集中最异常图像的“迷你-大”挑战。我们认为,需要开发新的异常检测工具和想法来克服这些挑战。

1.2 AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

AlignDet:目标检测中对齐预训练和微调

https://arxiv.org/abs/2307.11077

在这里插入图片描述
大规模预训练,然后下游微调的范式已被广泛采用在各种目标检测算法。在本文中,我们揭示了数据,模型,和任务之间的预训练和微调程序在现有的做法,这隐含地限制了检测器的性能,泛化能力和收敛速度之间的差异。为此,我们提出了AlignDet,一个统一的预训练框架,可以适应各种现有的检测器,以减轻差异。AlignDet将预训练过程解耦为两个阶段,即,图像域和盒域预训练。图像域预训练优化检测主干以捕获整体视觉抽象,盒域预训练学习实例级语义和任务感知概念,以初始化主干的部分。通过结合自监督预训练骨干,我们可以在无监督范式中预训练各种检测器的所有模块。如图1所示,广泛的实验表明,AlignDet可以在不同的协议,如检测算法,模型骨干,数据设置和训练计划中实现显着的改进。例如,AlignDet将FCOS提高了5.3 mAP,RetinaNet提高了2.1 mAP,Faster R-CNN提高了3.3 mAP,DETR在更少的时期下提高了2.3 mAP。

1.3 Cascade-DETR: Delving into High-Quality Universal Object Detection

CASCADE-DETR:深入研究高质量通用目标检测

https://arxiv.org/abs/2307.11035

在这里插入图片描述
一般环境中的目标定位是视觉系统的基本部分。虽然在COCO基准测试中占主导地位,但最近基于Transformer的检测方法在不同领域中没有竞争力。此外,这些方法仍然难以非常准确地估计复杂环境中的对象边界框。 我们引入Cascade-DETR用于高质量的通用对象检测。我们共同解决的泛化到不同的领域和定位精度,提出级联注意层,明确集成以对象为中心的信息到检测解码器通过限制注意到以前的框预测。为了进一步提高准确性,我们还重新审视了查询的评分。我们预测查询的预期IoU,而不是依赖于分类分数,从而获得更好的校准置信度。最后,我们介绍了一个通用的对象检测基准,UDB 10,它包含10个数据集,来自不同的领域。在推进COCO最新技术的同时,Cascade-DETR在UDB 10中的所有数据集上大大改进了基于DETR的检测器,在某些情况下甚至超过10 mAP。在严格的质量要求下的改进更加明显。我们的代码和模型将在https://github.com/SysCV/cascade-detr上发布。

1.4 PE-YOLO: Pyramid Enhancement Network for Dark Object Detection

PE-YOLO:用于暗目标检测的金字塔增强网络

https://arxiv.org/abs/2307.10953

在这里插入图片描述
目前的目标检测模型在许多基准数据集上取得了良好的效果,在黑暗条件下检测目标仍然是一个很大的挑战。为了解决这个问题,我们提出了一个金字塔增强网络(PENet),并将其与YOLOv 3联合起来,构建了一个名为PE-YOLO的暗物体检测框架。首先,PENet使用拉普拉斯金字塔将图像分解为不同分辨率的四个分量。具体来说,我们提出了一个细节处理模块(DPM),以增强图像的细节,其中包括上下文分支和边缘分支。此外,我们提出了一个低频增强滤波器(LEF),以捕捉低频语义和防止高频噪声。PE-YOLO采用端到端的联合训练方式,仅使用正常检测丢失来简化训练过程。我们在低光目标检测数据集ExDark上进行实验,以证明我们的有效性。结果表明,与其他暗探测器和弱光增强模型相比,PE-YOLO取得了先进的结果,mAP和FPS分别达到78.0%和53.6,可以适应不同弱光条件下的目标检测。该代码可在https://github.com/XiangchenYin/PE-YOLO获得。

1.5 Exploring Effective Priors and Efficient Models for Weakly-Supervised Change Detection

探索弱监督变化检测的有效先验和有效模型

https://arxiv.org/abs/2307.10853

在这里插入图片描述
弱监督变化检测(WSCD)旨在检测像素级的变化,只有图像级的注释。由于其标签效率,WSCD近年来受到越来越多的关注。然而,当前的WSCD方法经常遇到变化丢失和制造的挑战,即,图像级注释和像素级预测之间的不一致性。具体地,改变丢失是指即使图像级标签指示改变,WSCD模型也未能预测任何改变的像素的情况,并且对于改变制造而言反之亦然。为了应对这一挑战,在这项工作中,我们利用WSCD中的全球规模和本地规模先验,并提出了两个组件:扩展先验(DP)解码器和标签门控(LG)约束。DP解码器对具有改变的图像级标签的样本进行解码,跳过具有未改变标签的样本,并用完全未改变的像素级标签替换它们。LG约束是从变化的表示和图像级标签之间的对应关系导出的,当模型错误预测变化状态时惩罚模型。此外,我们开发了TransWCD,一个简单而强大的基于变换器的模型,展示了弱监督学习在变化检测中的潜力。通过将DP解码器和LG约束集成到TransWCD中,我们形成了TransWCD-DL。我们提出的TransWCD和TransWCD-DL在WHU-CD数据集上分别实现了显著的+6.33%和+9.55%的F1评分改进。一些性能指标甚至超过了几个全监督变更检测(FSCD)竞争对手。代码将在www.example.com获得。

1.6 Optimizing PatchCore for Few/many-shot Anomaly Detection

针对少/多镜头异常检测的PatchCore优化

https://arxiv.org/abs/2307.10792

在这里插入图片描述
Few-Shot异常检测(AD)是常规AD的一个新兴的子领域,并且试图仅使用少量选择的样本来区分正常数据和异常数据。虽然新提出的Few-Shot AD方法确实与为全镜头域开发的预先存在的算法作为基线进行了比较,但它们并没有专门针对几个镜头设置对其进行优化。因此,仍然不清楚这种预先存在的算法的性能是否可以进一步改进。我们在这项工作中解决了这个问题。具体来说,我们提出了一个研究的AD/异常分割(AS)性能的PatchCore,目前国家的最先进的全拍AD/AS算法,在Few-Shot和多拍设置。我们假设可以通过(I)优化其各种超参数,以及(II)将已知的改善Few-Shot监督学习的技术转移到AD领域来实现进一步的性能改善。在公共VisA和MVTec AD数据集上的详尽实验表明,(I)可以通过优化超参数(如底层特征提取器)来实现显着的性能改进,以及(II)图像级增强可以但不能保证提高性能。基于这些研究结果,我们实现了一个新的国家的艺术在Few-Shot AD的VisA,进一步证明了适应预先存在的AD/AS方法的少数镜头设置的优点。最后,我们确定了一个强大的归纳偏见作为一个潜在的未来的研究方向(Few-Shot)AD/AS的特征提取器的调查。

1.7 SMURF: Spatial Multi-Representation Fusion for 3D Object Detection with 4D Imaging Radar

SMurf:用于4D成像雷达三维目标检测的空间多表示融合

https://arxiv.org/abs/2307.10784

在这里插入图片描述
4D毫米波(mmWave)雷达由于其成本效益和在恶劣天气条件下的可操作性而成为一种很有前途的车辆传感技术。然而,这种技术的采用受到雷达点云数据中的稀疏性和噪声问题的阻碍。本文介绍了空间多表示融合(SMURF),一种利用单个4D成像雷达进行三维目标检测的新方法。SMURF利用雷达检测点的多种表示,包括通过核密度估计(KDE)的多维高斯混合分布的柱化和密度特征。KDE有效地减少了由于雷达信号的角分辨率有限和多径传播而引起的测量不准确性。此外,KDE通过捕获密度特征来帮助缓解点云稀疏性。在Delft视图(VoD)和TJ4DRadSet数据集上的实验评估证明了SMURF的有效性和泛化能力,优于最近提出的基于4D成像雷达的单表示模型。此外,虽然仅使用4D成像雷达,但SMURF仍然实现了与最先进的4D成像雷达和基于相机融合的方法相当的性能,TJ4DRadSet数据集鸟瞰图的平均平均精度提高了1.22%,VoD数据集整个注释区域的3D平均精度提高了1.32%。我们提出的方法展示了令人印象深刻的推理时间,并解决了实时检测的挑战,推理时间不超过0.05秒的大多数扫描两个数据集。这项研究突出了4D毫米波雷达的优势,并为后续工作与4D成像雷达3D物体检测提供了强有力的基准。

1.8 Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged Object Detection

预先训练、适应和检测:用于伪装目标检测的多任务适配器调整

https://arxiv.org/abs/2307.10685

在这里插入图片描述
伪装目标检测(COD)是一项具有挑战性的任务,其目标是分割出与背景具有相似模式的伪装目标。现有的大多数工作都致力于建立专门的模块来识别伪装对象的完整和精细的细节,而边界不能很好地定位,缺乏对象相关的语义。在本文中,我们提出了一种新的“预训练,适应和检测”范式来检测伪装对象。通过引入大型预训练模型,可以将从海量多模态数据中学习到的丰富知识直接转移到COD中。插入轻量级并行适配器以调整适合于下游COD任务的特征。在四个具有挑战性的基准数据集上进行的大量实验表明,我们的方法比现有的最先进的COD模型有更大的优势。此外,我们设计了一个多任务的学习计划,调整适配器,以利用跨不同的语义类的共享知识。综合实验结果表明,通过对源任务进行多任务适配器初始化和对目标任务进行多任务适配,可以显著提高模型的泛化能力。

1.9 RetouchingFFHQ: A Large-scale Dataset for Fine-grained Face Retouching Detection

RetouchingFFHQ:一种面向人脸细粒度检测的大规模数据集

https://arxiv.org/abs/2307.10642

在这里插入图片描述
短视频平台广泛使用修脸滤镜,引发了人们对数字形象真实性和欺骗性广告影响的担忧。为了解决这些问题,迫切需要开发先进的面部修饰技术。然而,缺乏大规模和细粒度的人脸修饰数据集一直是该领域进展的主要障碍。在本文中,我们介绍了RetouchingFFHQ,一个大规模和细粒度的人脸修饰数据集,包含超过50万个条件修饰的图像。RetouchingFFHQ以其大规模、高质量、细粒度和可定制性而脱颖而出。通过包括四种典型的面部修饰操作和不同的修饰水平,我们扩展到一个细粒度的,多修饰类型,多修饰水平估计问题的二进制面部修饰检测。此外,我们提出了一个多粒度注意力模块(MAM)作为增强跨尺度表示学习的CNN骨干的插件。大量的实验使用不同的基线,以及我们提出的方法对RetouchingFFHQ显示体面的性能,人脸修饰检测。有了新的数据集,我们相信未来的工作有很大的潜力,以解决现实世界中的细粒度人脸修饰检测的挑战性问题。

1.10 Parallelization of a new embedded application for automatic meteor detection

一种新的嵌入式流星自动探测应用程序的并行化

https://arxiv.org/abs/2307.10632

在这里插入图片描述
本文介绍了一种新的计算机视觉应用程序并行化的方法。该系统能够自动检测流星从非稳定的相机和嘈杂的视频序列。该应用程序被设计为嵌入气象气球或用于空中观测活动。因此,最终目标是低功率片上系统(< 10瓦),而软件需要实时计算帧流(>每秒25帧)。为此,首先在任务图中分割应用程序,然后应用不同的并行化技术。实验结果证明了并行化方法的有效性。例如,在Raspberry Pi 4和HD视频序列上,处理链达到每秒42帧,而仅消耗6瓦。

1.11 No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention and Zoom-in Boundary Detection

朴实无华的时间视频接地:多尺度邻域关注和放大边界检测

https://arxiv.org/abs/2307.10567

在这里插入图片描述
时间视频接地(TVG)的目的是从一个未修剪的视频检索的时间间隔的语言查询。TVG中的一个重大挑战是低“语义噪声比(SNR)”,这导致SNR越低性能越差。先前的工作已经使用复杂的技术解决了这一挑战。在本文中,我们提出了一个没有装饰的TVG模型,由两个核心模块,即多尺度相邻注意和放大边界检测。多尺度相邻注意力限制每个视频令牌仅聚合来自其邻居的视觉上下文,使得能够从高比率噪声中提取具有多尺度特征层次的最有区别的信息。然后,放大边界检测集中于对所选择的最佳候选者的局部辨别,以用于细粒度接地调整。通过端到端的训练策略,我们的模型在不同的TVG基准测试中实现了具有竞争力的性能,同时由于其轻量级架构,还具有更快的推理速度和更轻的模型参数的优势。

1.12 Mining Conditional Part Semantics with Occluded Extrapolation for Human-Object Interaction Detection

基于遮挡外推的条件部分语义挖掘用于人机交互检测

https://arxiv.org/abs/2307.10499

在这里插入图片描述
人机交互检测是以人为中心的场景理解的一个重要方面,在各个领域都有重要的应用。尽管最近在这一领域取得了进展,但识别微妙和详细的相互作用仍然具有挑战性。现有的方法试图使用人类相关的线索来缓解困难,但严重依赖于外部注释或知识,限制了它们在现实世界场景中的实际适用性。在这项工作中,我们提出了一种新的部分语义网络(PSN)来解决这个问题。PSN的核心是条件部分注意(CPA)机制,其中人的特征被作为键和值,并且对象特征被用作交叉注意机制中的计算的查询。通过这种方式,我们的模型学习自动关注所涉及对象上信息量最大的人体部位,为交互识别生成更有语义意义的特征。此外,我们提出了一个闭塞的部分外推(OPE)的策略,以促进闭塞的情况下,教模型推断出详细的功能,部分闭塞的互动识别。我们的方法在V-COCO和HICO-DET数据集上始终优于先前的方法,无需外部数据或额外的注释。额外的消融研究验证了我们提出的方法的每个组件的有效性。

1.13 Backdoor Attack against Object Detection with Clean Annotation

基于Clean Annotation的目标检测后门攻击

https://arxiv.org/abs/2307.10487

在这里插入图片描述
深度神经网络(DNN)在目标检测任务中取得了前所未有的成功。然而,也发现DNN容易受到多种攻击,包括后门攻击。通过攻击,攻击者设法将隐藏的后门嵌入到DNN中,使得模型在良性数据样本上正常运行,但在发生预定义触发的情况下做出攻击者指定的判断。虽然许多后门攻击已经在图像分类上进行了实验,但对对象检测任务的后门攻击尚未得到适当的调查和探索。由于对象检测已被采用为自动驾驶等多个安全敏感应用中的重要模块,因此对对象检测的后门攻击可能会造成更严重的威胁。受基于深度学习的对象检测器的固有属性的启发,我们提出了一种简单而有效的后门攻击方法,针对对象检测,而无需修改地面实况注释,特别关注对象消失攻击和对象生成攻击。广泛的实验和消融研究证明了我们的攻击的有效性两个基准对象检测数据集,PASCAL VOC07+12和MSCOCO,我们实现了攻击成功率超过92%,中毒率只有5%。

1.14 Findings of Factify 2: Multimodal Fake News Detection

Factify 2的发现:多模式假新闻检测

https://arxiv.org/abs/2307.10475

在这里插入图片描述
随着社交媒体的使用在过去几年中呈指数级增长,假新闻也变得非常普遍。假新闻的有害影响强调了研究的必要性,重点是自动检测虚假信息并验证其准确性。在这项工作中,我们提出了Factify 2共享任务的结果,该任务提供了多模态事实验证和讽刺新闻数据集,作为AAAI’23 DeFactify 2研讨会的一部分。数据要求通过将社交媒体声明与支持文档配对,文本和图像,基于多模态关系分为5类,对任务进行基于比较的方法。在该任务的第二次迭代中,我们有超过60名参与者和9个最终测试集提交。最好的表现来自于使用DeBERTa的文本和Swinv2和CLIP的图像。所有五个班级的最高F1得分平均为81.82%。

1.15 RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection

RCM-Fusion:用于三维目标检测的雷达-相机多级融合

https://arxiv.org/abs/2307.10249

在这里插入图片描述
虽然LiDAR传感器已成功应用于3D物体检测,但雷达和相机传感器的可负担性已导致对用于3D物体检测的融合雷达和相机的兴趣日益增长。然而,以前的雷达相机融合模型还不能充分利用雷达信息,因为最初的3D建议是基于相机的特征生成的,然后进行实例级融合。在本文中,我们提出了雷达相机多级融合(RCM融合),融合雷达和相机模态在特征级和实例级充分利用雷达信息。在特征级,我们提出了一种雷达引导BEV编码器,它利用雷达鸟瞰图(BEV)功能,将图像特征转换成精确的BEV表示,然后自适应地结合雷达和相机BEV功能。在实例级,我们提出了一个雷达网格点细化模块,通过考虑雷达点云的特点,减少定位误差。在公共nuScenes数据集上进行的实验表明,我们提出的RCM融合提供了11.8%的性能增益,nuScenes检测分数(NDS)超过仅相机基线模型,并实现了最先进的性能之间的雷达相机融合方法在nuScenes 3D对象检测基准。代码将公开提供。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131884953