【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 6 日论文合集)

一、检测相关(16篇)

1.1 Large-scale Detection of Marine Debris in Coastal Areas with Sentinel-2

利用Sentinel-2对沿海地区海洋垃圾的大规模探测

https://arxiv.org/abs/2307.02465

在这里插入图片描述
检测和量化海洋污染和宏观塑料是一个日益紧迫的生态问题,直接影响生态和人类健康。量化海洋污染的努力往往是通过稀疏和昂贵的海滩调查进行的,这很难大规模进行。在这里,遥感可以通过定期监测和检测沿海地区的海洋垃圾来提供对塑料污染的可靠估计。沿海地区的中分辨率卫星数据很容易获得,可用于探测含有塑料垃圾的海洋废弃物聚集体。在这项工作中,我们提出了一个探测器的海洋垃圾的深度分割模型,输出的概率在像素级的海洋垃圾。我们用海洋废弃物的注释数据集的组合来训练这个检测器,并在特别选择的测试地点进行评估,在这些地点,检测到的海洋废弃物中很可能存在塑料污染。我们定量和定性地证明,在这个数据集上训练的深度学习模型从多个来源发出,大大优于在以前的数据集上训练的现有检测模型。我们的实验表明,与以数据为中心的AI的原则一致,这种性能是由于我们特定的数据集设计,对负面示例进行了广泛的采样和标签改进,而不是取决于特定的深度学习模型。我们希望加快海洋垃圾大规模自动检测的进展,这是在全球范围内利用遥感量化和监测海洋垃圾的一步,并在www.example.com上发布模型权重和训练源代码https://github.com/marccoru/marinedebrisdetector

1.2 Unbalanced Optimal Transport: A Unified Framework for Object Detection

非均衡最优传输:目标检测的统一框架

https://arxiv.org/abs/2307.02402

在这里插入图片描述
在训练期间,监督对象检测尝试将预测的边界框和相关联的分类分数正确地匹配到地面实况。这对于确定哪些预测将被推向哪些解决方案或被丢弃至关重要。流行的匹配策略包括匹配到最接近的地面真值框(主要与锚点结合使用),或通过匈牙利算法(主要用于无锚点方法)进行匹配。这些策略中的每一个都有自己的属性,潜在的损失和启发式。我们展示了如何不平衡最优运输统一这些不同的方法,并打开了一个完整的连续体之间的方法。这允许更精细地选择期望的性质。在实验中,我们表明,使用不平衡最优传输训练对象检测模型能够在平均精度和平均召回率方面达到最先进水平,并提供更快的初始收敛。该方法非常适合GPU实现,这被证明是一个大规模的模型的优势。

1.3 Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality

利用深度扩散模型的局部本征维度进行图像检测

https://arxiv.org/abs/2307.02347

在这里插入图片描述
扩散模型最近已成功地应用于视觉合成的惊人的现实出现的图像。这引起了人们对它们用于恶意目的的可能性的强烈关切。在本文中,我们提出使用轻量级的多本地固有维数(multiLID),这最初是在检测对抗性的例子,自动检测合成图像和识别相应的生成器网络的背景下开发的。与许多现有的检测方法(通常仅适用于GAN生成的图像)相比,该方法在许多现实用例中提供了接近完美的检测结果。在已知和新创建的数据集上进行的大量实验表明,multiLID在扩散检测和模型识别方面具有优越性。由于最近出版物对生成图像检测的经验评估往往过于集中在“LSUN-Bedroom”数据集上,因此我们进一步建立了一个全面的扩散生成图像检测基准,包括来自具有不同图像大小的几个扩散模型的样本,以评估其multiLID的性能。 我们的实验代码在www.example.com上提供https://github.com/deepfake-study/deepfake_multiLID。

1.4 SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection

SVDM:用于伪立体三维目标检测的单视图扩散模型

https://arxiv.org/abs/2307.02270

在这里插入图片描述
3D目标检测的关键问题之一是缩小基于LiDAR传感器的方法与基于单目相机的方法之间的精度差距。最近提出的基于伪立体的单目3D检测框架在社会上受到了相当大的关注。然而,到目前为止,这两个问题被发现在现有的实践中,包括(1)单目深度估计和伪立体检测器必须分开训练,(2)难以兼容不同的立体检测器,以及(3)整体计算量大,这影响了推理速度。在这项工作中,我们提出了一个端到端的,高效的伪立体三维检测框架,通过引入一个单视图扩散模型(SVDM),使用几个迭代,逐步提供右信息像素的左侧图像。SVDM允许整个伪立体三维检测流水线端到端训练,并且可以从立体检测器的训练中受益。之后,我们进一步探讨了SVDM在无深度立体3D检测中的应用,最终框架与大多数立体检测器兼容。在KITTI数据集的多个基准测试中,我们实现了新的最先进的性能。

1.5 Remote Sensing Image Change Detection with Graph Interaction

基于图形交互的遥感图像变化检测

https://arxiv.org/abs/2307.02007

在这里插入图片描述
现代遥感图像变化检测已经见证了巨大的进步,利用强大的特征提取能力的CNN和Transforms.然而,流行的变化检测技术始终优先提取相关的语义特征,忽视了直接交互与双时态图像特征的可行性。在这封信中,我们提出了一个双时态图像图形交互网络用于遥感变化检测,即BGINet-CD。更具体地说,通过利用非局部操作的概念和映射从骨干网络获得的特征到图结构空间,我们提出了一个统一的自聚焦机制的双时间图像。这种方法增强了两个时间图像之间的信息耦合,同时有效地抑制任务无关的干扰。基于一个精简的骨干架构,即ResNet 18,我们的模型表现出优越的性能相比,其他国家的最先进的方法(SOTA)在GZ CD数据集。此外,该模型表现出增强的精度和计算效率之间的权衡,进一步提高了其整体效果

1.6 Muti-scale Graph Neural Network with Signed-attention for Social Bot Detection: A Frequency Perspective

基于频率视角的带符号注意的多尺度图神经网络社交机器人检测

https://arxiv.org/abs/2307.01968

在这里插入图片描述
社交媒体上大量机器人的存在会产生不利影响。图神经网络(GNN)可以有效地利用用户之间的社交关系,并在检测机器人方面取得优异的效果。最近,已经提出了越来越多的基于GNN的方法用于机器人检测。然而,现有的基于GNN的机器人检测方法只关注低频信息,很少考虑高频信息,限制了模型的表达能力。为了解决这个问题,本文提出了一个多尺度与符号注意力图过滤器的社交机器人检测称为MSGS。MSGS可以有效地利用社交图中的高频和低频信息。具体地,MSGS利用多尺度结构来产生不同尺度的表示向量。然后使用符号注意机制将这些表示组合在一起。最后,多尺度表示通过MLP聚合后产生最终结果。我们分析了频率响应,并证明MSGS是一个更灵活和表达自适应图形滤波器。MSGS可以有效地利用高频信息来缓解深度GNN的过度平滑问题。在真实世界数据集上的实验结果表明,与几种最先进的社交机器人检测方法相比,我们的方法具有更好的性能。

1.7 MaskBEV: Joint Object Detection and Footprint Completion for Bird’s-eye View 3D Point Clouds

MaskBEV:鸟瞰三维点云的联合目标检测和足迹补全

https://arxiv.org/abs/2307.01864

在这里插入图片描述
最近在LiDAR点云中的对象检测中的工作主要集中在预测对象周围的边界框。这种预测通常使用预测边界框的基于锚点的或无锚点的检测器来实现,这需要关于对象的显著的显式先验知识以正常工作。为了弥补这些局限性,我们提出了MaskBEV,一种基于鸟瞰图(BEV)的对象检测器神经架构。MaskBEV预测表示检测到的对象的足迹的BEV实例掩模的集合。此外,我们的方法允许对象检测和足迹完成在一个单一的通行证。MaskBEV还完全根据分类重新定义了检测问题,消除了通常用于预测边界框的回归。我们评估MaskBEV的性能SemanticKITTI和KITTI数据集,同时分析架构的优点和局限性。

1.8 Deep Features for Contactless Fingerprint Presentation Attack Detection: Can They Be Generalized?

非接触式指纹呈现攻击检测的深层功能:它们可以推广吗?

https://arxiv.org/abs/2307.01845

在这里插入图片描述
具有先进高分辨率摄像头的高端智能手机的快速发展使得指纹生物识别技术的非接触式捕获更加可靠且适合于验证。类似于其他生物识别系统,非接触式指纹验证系统容易受到呈现攻击。在本文中,我们提出了一个比较研究的概括性七个不同的预训练卷积神经网络(CNN)和Vision Transformer(ViT)可靠地检测演示攻击。广泛的实验进行了公开的基于智能手机的演示攻击数据集,使用四种不同的演示攻击工具(PAI)。使用留一法协议评估第八深度特征技术的检测性能,以基准测试不可见PAI的泛化性能。所获得的结果表明ResNet50 CNN的泛化性能最好。

1.9 SUIT: Learning Significance-guided Information for 3D Temporal Detection

Suit:用于三维时间检测的学习意义制导信息

https://arxiv.org/abs/2307.01807

在这里插入图片描述
从LiDAR点云中检测3D物体对于自动驾驶和机器人技术至关重要。虽然序列点云具有通过时间信息增强3D感知的潜力,但有效且高效地利用这些时间特征仍然是一个具有挑战性的问题。基于观察到的前景信息是稀疏分布在激光雷达场景中,我们相信,足够的知识可以提供稀疏格式,而不是密集的地图。为此,我们建议学习3D时间检测(SUIT),它简化了时间信息作为跨帧信息融合的稀疏特征的重要性gUided信息。具体来说,我们首先介绍了一个重要的采样机制,提取信息丰富,但稀疏的特征预测对象的质心的基础上。最重要的是,我们提出了一个显式的几何变换学习技术,它学习跨帧的稀疏特征之间的对象为中心的变换。我们在大规模nuScenes和Waymo数据集上评估了我们的方法,其中我们的SUIT不仅显着降低了时间融合的内存和计算成本,而且在最先进的基线上表现良好。

1.10 K-complex Detection Using Fourier Spectrum Analysis In EEG

基于傅里叶谱分析的脑电K-波群检测

https://arxiv.org/abs/2307.01754

在这里插入图片描述
K-复合物是大脑活动的重要标志物,并且在临床实践中用于进行睡眠评分和研究。然而,由于脑电图(EEG)记录的大小,以及睡眠学家执行的K-复合体检测的主观性质,它是合理的自动化K-复合体检测。以前在这个研究领域的工作依赖于真阳性率和假阳性率的值来量化所提出的方法的有效性,然而,这组度量可能是误导。本研究的目的是找到一组更准确的指标,并使用它们来开发一种新的方法K-复杂的检测,这将不依赖于神经网络。因此,本文提出了两种基于快速傅立叶变换的K-复数检测新方法。所实现的结果表明,所提出的方法提供了K-复合检测的质量,其类似于或优于先前工作中所展示的方法的质量,包括采用神经网络的方法,同时需要较少的计算能力,这意味着K-复合检测不需要使用神经网络。所提出的方法进行了评估,使用一组新的指标,这是更有代表性的K-复杂的检测质量。

1.11 SRCD: Semantic Reasoning with Compound Domains for Single-Domain Generalized Object Detection

SRCD:单域广义目标检测的复合域语义推理

https://arxiv.org/abs/2307.01750

在这里插入图片描述
本文提供了一种新的单域广义目标检测框架(即,单DGOD),其中我们感兴趣的是学习和维护自增强复合跨域样本的语义结构,以增强模型的泛化能力。与在多个源域上训练的DGOD不同,单DGOD更具有挑战性,以仅一个源域很好地推广到多个目标域。现有的方法大多采用类似于DGOD的处理,通过解耦或压缩语义空间来学习域不变特征。但是,可能存在两个潜在的限制:1)伪属性-标签相关性,由于极其稀缺的单域数据;以及2)通常忽略语义结构信息,即,我们发现样本中实例级语义关系的亲和性对于模型泛化是至关重要的。在本文中,我们介绍了语义推理与复合域(SRCD)的单DGOD。具体而言,我们的SRCD包含两个主要组件,即,基于纹理的自我增强(TBSA)模块,和局部-全局语义推理(LGSR)模块。TBSA旨在消除与标签相关联的不相关属性(诸如光、阴影、颜色等)的影响。在图像层面通过一种轻而高效的自我增强。此外,LGSR用于进一步建模实例特征的语义关系,以揭示和维护内在的语义结构。在多个基准测试上的大量实验证明了所提出的SRCD的有效性。

1.12 IAdet: Simplest human-in-the-loop object detection

IADET:最简单的人在环中目标检测

https://arxiv.org/abs/2307.01582

在这里插入图片描述
这项工作提出了一种策略,训练模型,同时标注数据名为智能标注(IA)。IA包括三个模块:(1)辅助数据注释,(2)背景模型训练,以及(3)下一个数据点的主动选择。在这个框架下,我们开源的IADET工具,这是特定的单类对象检测。此外,我们设计了一种方法,用于自动评估这样的人在环系统。对于PASCAL VOC数据集,IADET工具将数据库注释时间减少了25%$,同时免费提供了一个经过训练的模型。这些结果得到一个故意非常简单的IADET设计。因此,IADET易于进行多种简单的改进,为强大的人在环物体检测系统铺平了道路。

1.13 Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations

基于紧致运动表示的扩散模型无监督视频异常检测

https://arxiv.org/abs/2307.01533

在这里插入图片描述
本文的目的是解决无监督视频异常检测(VAD)的问题,其中涉及到分类的视频中的每一帧为正常或异常,没有任何访问标签。为了实现这一点,所提出的方法采用条件扩散模型,其中输入数据是从预先训练的网络中提取的时空特征,并且条件是从紧凑的运动表示中提取的特征,总结了给定的视频片段在其运动和外观方面。我们的方法利用一个数据驱动的阈值,并认为高重建误差作为异常事件的指标。这项研究是第一次利用紧凑的运动表示VAD和实验上进行的两个大规模VAD基准表明,他们提供相关的信息扩散模型,并因此改善VAD性能与现有技术。重要的是,我们的方法在不同的数据集上表现出更好的泛化性能,明显优于最先进的方法和基线方法。我们方法的代码可在www.example.com获得https://github.com/AnilOsmanTur/conditioned_video_anomaly_diffusion

1.14 Practical Collaborative Perception: A Framework for Asynchronous and Multi-Agent 3D Object Detection

实用协作感知:一种异步式多智能体三维物体检测框架

https://arxiv.org/abs/2307.01462

在这里插入图片描述
在本文中,我们改进了单车辆三维物体检测模型,使用激光雷达扩展其处理点云序列的能力,而不是单独的点云。在这一步中,我们扩展了我们以前的工作,在点云的级联中校正阴影效应,以提高多帧检测模型的检测精度。我们的扩展包括合并HD Map和提取Oracle模型。接下来,我们通过车辆到一切(V2X)通信使用多智能体协作来进一步提高单车辆感知的性能。我们设计了一个简单而有效的协作方法,实现了更好的带宽性能比现有技术的权衡,同时最大限度地减少单车辆检测模型和假设代理间同步的变化。在V2X-Sim数据集上的实验表明,我们的协作方法实现了早期协作的98%的性能,同时消耗了后期协作的0.03%的带宽使用量。代码将在www.example.com发布https://github.com/quan-dao/practical-collab-perception。

1.15 DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

DeepfakeBch:一种全面的深伪检测基准

https://arxiv.org/abs/2307.01426

在这里插入图片描述
在deepfake检测领域,一个关键但经常被忽视的挑战是缺乏一个标准化、统一、全面的基准。这个问题会导致不公平的性能比较和潜在的误导性结果。具体而言,数据处理流水线缺乏一致性,导致检测模型的数据输入不一致。此外,在实验设置中存在明显的差异,并且评估策略和指标缺乏标准化。为了填补这一空白,我们提出了第一个全面的deepfake检测基准,称为DeepfakeBench,它提供了三个关键贡献:1)统一的数据管理系统,以确保所有检测器的一致输入,2)用于最先进方法实施的集成框架,以及3)标准化的评估指标和协议,以提高透明度和可重复性。DeepfakeBench具有可扩展的基于模块的代码库,包含15种最先进的检测方法,9个deepfake数据集,一系列deepfake检测评估协议和分析工具,以及全面的评估。此外,我们提供了新的见解的基础上,从各种角度对这些评估的广泛分析(例如,数据扩充、主干)。我们希望我们的努力能够促进未来的研究,并促进这一日益重要的领域的创新。我们的基准测试的所有代码、评估和分析均可在www.example.com上公开获取https://github.com/SCLBD/DeepfakeBench。

1.16 Robust Surgical Tools Detection in Endoscopic Videos with Noisy Data

具有噪声数据的内窥镜视频中的健壮手术工具检测

https://arxiv.org/abs/2307.01232

在这里插入图片描述
在过去的几年里,手术数据科学引起了机器学习(ML)社区的极大兴趣。各种研究已经证明了新兴ML技术在分析手术数据,特别是手术记录,数字化临床和非临床功能(如术前计划,上下文感知决策和操作技能评估)方面的有效性。然而,该领域仍处于起步阶段,缺乏代表性的,注释良好的数据集,用于在中间ML任务中训练鲁棒模型。此外,现有的数据集遭受不准确的标签,阻碍了可靠模型的开发。在本文中,我们提出了一个系统的方法来开发强大的模型,手术工具检测噪声数据。我们的方法引入了两项关键创新:(1)用于由人类专家进行的最小数据集识别和标签校正的智能主动学习策略;以及(2)一个基于学生-教师模型的自我训练框架的组装策略,以半监督的方式实现14种手术工具的稳健分类。此外,我们采用加权数据加载器来处理困难的类标签和解决类不平衡的问题。所提出的方法实现了平均F1分数为85.88%的集成模型为基础的自训练类权重,和80.88%没有类权重嘈杂的标签。此外,我们提出的方法显着优于现有的方法,这有效地证明了其有效性。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131603395