【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 11 日论文合集)

一、检测相关(11篇)

1.1 Joint Salient Object Detection and Camouflaged Object Detection via Uncertainty-aware Learning

基于不确定性感知学习的联合显著目标检测和伪装目标检测

https://arxiv.org/abs/2307.04651

在这里插入图片描述
显著的物体吸引人类的注意力,通常从周围环境中清晰地脱颖而出。相比之下,伪装的物体与环境共享相似的颜色或纹理。在这种情况下,显著对象通常是非伪装的,并且伪装对象通常是不显著的。由于这种固有的矛盾属性,我们引入了一个不确定性感知的学习管道,通过数据级和任务级的矛盾建模,广泛探索显着对象检测(SOD)和伪装对象检测(COD)的矛盾信息。我们首先利用这两个任务的数据集相关性,并声称COD数据集中的容易样本可以作为SOD的硬样本,以提高SOD模型的鲁棒性。基于这两个模型的假设,这两个模型应导致激活地图突出显示同一输入图像的不同区域,我们进一步引入了一个对比模块与联合任务对比学习框架,明确建模这两个任务的矛盾属性。不同于传统的任务内对比学习的无监督表示学习,我们的对比模块的目的是建模的任务明智的相关性,导致跨任务表示学习。为了从不确定性的角度更好地理解这两个任务,我们广泛研究了不确定性估计技术,用于建模这两个任务的主要不确定性,即任务不确定性(SOD)和数据不确定性(COD),并旨在有效地估计每个任务的挑战区域,以实现困难感知学习。基准数据集上的实验结果表明,我们的解决方案导致国家的最先进的性能和信息的不确定性估计。

1.2 TFR: Texture Defect Detection with Fourier Transform using Normal Reconstructed Template of Simple Autoencoder

TFR:基于简单自动编码器法线重构模板的傅里叶变换纹理缺陷检测

https://arxiv.org/abs/2307.04574

在这里插入图片描述
纹理是图像表示、捕捉图案和结构的重要信息。因此,纹理在制造业中起着至关重要的作用,并在计算机视觉和模式识别领域得到了广泛的研究。然而,现实世界的纹理容易受到缺陷的影响,这会降低图像质量并导致各种问题。因此,需要准确且有效的方法来检测纹理缺陷。在这项研究中,一个简单的自动编码器和傅里叶变换被用来检测纹理缺陷。所提出的方法结合了傅里叶变换分析与从简单的自动编码器获得的重构模板。傅立叶变换是分析图像和信号频域的有力工具。此外,由于纹理缺陷通常在特定频率范围内表现出特征变化,因此分析频域使得能够有效地检测缺陷。该方法在检测纹理缺陷方面表现出了有效性和准确性。实验结果来评估其性能,并与现有的方法进行比较。

1.3 Preventing Errors in Person Detection: A Part-Based Self-Monitoring Framework

防止人员检测中的错误:基于部件的自我监控框架

https://arxiv.org/abs/2307.04533

在这里插入图片描述
无论学习对象的外观如何,检测学习对象的能力对于现实世界应用中的自主系统至关重要。特别是对于检测人,这通常是安全关键应用中的基本任务,防止错误至关重要。为了解决这个挑战,我们提出了一个自我监控框架,允许感知系统在运行时执行合理性检查。我们表明,通过将一个额外的组件用于检测人体部位,我们能够显着减少遗漏的人类检测的数量的因素高达9时相比,基线设置,这是只在整体的人对象的训练。此外,我们发现,与单独对人类进行训练相比,在人类及其身体部位上联合训练模型可以大幅减少高达50%的假阳性检测。我们在公开的数据集DensePose和Pascal VOC上进行了全面的实验,以证明我们的框架的有效性。代码可在https://github.com/ FraunhoferIKS/smf-object-detection获得。

1.4 Real-time Human Detection in Fire Scenarios using Infrared and Thermal Imaging Fusion

基于红外和热像融合的火灾场景下人体实时检测

https://arxiv.org/abs/2307.04223

在这里插入图片描述
火灾被认为是对人类生命最严重的威胁之一,导致死亡的可能性很高。这些严重后果源于火灾产生的浓烟,这主要限制了逃离的受害者和救援队的能见度。在这种危险的情况下,使用基于视觉的人体检测系统能够提高拯救更多生命的能力。为此,本文提出了一种基于多摄像机的热红外图像融合策略,用于烟雾引起的低能见度场景下的人体检测。通过使用多个相机进行处理,可以收集重要信息以生成用于人体检测的更有用的特征。首先,使用光加热棋盘校准相机。之后,从输入图像中提取的特征在通过轻量级深度神经网络之前被合并以执行人体检测任务。在NVIDIA Jetson Nano计算机上进行的实验表明,所提出的方法可以以合理的速度进行处理,并且可以实现良好的性能,[email protected]为95%。

1.5 Marine Debris Detection in Satellite Surveillance using Attention Mechanisms

利用注意力机制实现卫星监视中的海洋垃圾检测

https://arxiv.org/abs/2307.04128

在这里插入图片描述
海洋废弃物是环境保护的一个重要问题,但目前用于定位海洋废弃物的方法仍然有限。为了在海洋垃圾定位中实现更高的效率和更广泛的适用性,本文尝试将YOLOv 7的实例分割与不同的注意机制相结合,探索最佳模型。通过利用包含海洋碎片的卫星图像组成的标记数据集,我们研究了三种注意力模型,包括轻量级坐标注意力,CBAM(结合空间和通道焦点)和瓶颈Transformer(基于自我注意力)。框检测评估显示,与协调注意(F1评分为71%)和YOLOv 7/瓶颈Transformer(F1评分均为66%左右)相比,CBAM实现了最佳结局(F1评分为77%)。掩模评估显示CBAM再次领先,F1得分为73%,而协调注意力和YOLOv 7具有相当的性能(F1得分约为68%/69%),瓶颈Transformer落后于F1得分56%。这些研究结果表明,CBAM提供了最佳的适合检测海洋垃圾。然而,应该注意的是,瓶颈Transformer检测到手动注释遗漏的一些区域,并且对于较大碎片块显示出更好的掩模精度,这意味着潜在的优越的实际性能。

1.6 Mitosis Detection from Partial Annotation by Dataset Generation via Frame-Order Flipping

基于帧顺序翻转生成数据集的部分注释有丝分裂检测

https://arxiv.org/abs/2307.04113

在这里插入图片描述
有丝分裂事件的检测在生物医学研究中起着重要作用。基于深度学习的有丝分裂检测方法在一定量的标记数据下取得了出色的性能。然而,这些方法需要针对每个成像条件的注释。收集标记数据涉及耗时的人工劳动。在本文中,我们提出了一个有丝分裂检测方法,可以训练部分注释序列。基本思想是从部分标记生成完全标记的数据集,并用生成的数据集训练有丝分裂检测模型。首先,我们通过帧顺序翻转生成不包含有丝分裂事件的图像对。然后,我们通过alpha混合粘贴将有丝分裂事件粘贴到图像对,并生成完全标记的数据集。我们证明了我们的方法在四个数据集上的性能,我们确认我们的方法优于其他使用部分标记序列的比较。

1.7 Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird’s Eye View

基于参数深度的特征表示学习鸟瞰目标检测与分割

https://arxiv.org/abs/2307.04106

在这里插入图片描述
最近的视觉感知模型自动驾驶取得了可喜的成果,编码多视图图像特征到鸟瞰图(BEV)空间。这些方法的关键步骤和主要瓶颈是将图像特征转换到BEV坐标系中。本文着重于利用几何信息,如深度,这样的功能转换建模。现有的工作依赖于非参数的深度分布建模,导致显着的内存消耗,或忽略的几何信息来解决这个问题。相比之下,我们建议使用参数深度分布建模的特征变换。我们首先通过每个视图中每个像素的预测参数深度分布将2D图像特征提升到为自我车辆定义的3D空间。然后,我们基于从BEV帧的深度导出的3D空间占用来聚合3D特征体积。最后,我们将转换后的特征用于下游任务,如对象检测和语义分割。现有的语义分割方法也遭受幻觉问题,因为它们不考虑可见性信息。这种幻觉对于诸如控制和规划的后续模块可能是特别有问题的。为了缓解这个问题,我们的方法提供了深度不确定性和可靠的可见性感知估计。我们进一步利用我们的参数化深度建模,提出了一种新的可见性感知的评价指标,当考虑到,可以减轻幻觉问题。在nuScenes数据集上进行的对象检测和语义分割的广泛实验表明,我们的方法在这两项任务上都优于现有方法。

1.8 CA-CentripetalNet: A novel anchor-free deep learning framework for hardhat wearing detection

CA-CentripetalNet:一种用于安全帽佩戴检测的无锚点深度学习框架

https://arxiv.org/abs/2307.04103

在这里插入图片描述
安全帽佩戴自动检测可以加强建筑工地的安全管理,但由于视频监控场景复杂,这仍然是一个挑战。为了解决以前基于深度学习的方法泛化能力差的问题,提出了一种称为CA-CentripetalNet的新型无锚深度学习框架,用于安全帽佩戴检测。为了提高CA-CentripetalNet的特征提取和利用能力,提出了垂直-水平角点池和边界约束中心注意力约束的两种新方案。前者旨在实现边缘特征和内部特征的综合利用。后者旨在强制骨干注意内部特征,这仅在训练期间使用,而不是在检测期间使用。实验结果表明,CA-CentripetalNet以86.63%mAP(平均平均精度)实现了更好的性能,与现有的基于深度学习的方法相比,在合理的速度下具有更少的内存消耗,特别是在小规模安全帽和非磨损安全帽的情况下。

1.9 Camouflaged Object Detection with Feature Grafting and Distractor Aware

基于特征嫁接和干扰感知的伪装目标检测

https://arxiv.org/abs/2307.03943

在这里插入图片描述
伪装目标检测(COD)的目标是准确地分割出融入环境中的伪装目标,由于目标和背景之间的纹理在视觉上难以区分,这比普通检测更具挑战性。在本文中,我们提出了一种新的特征移植和分心感知网络(FDNet)来处理COD任务。具体来说,我们使用CNN和Transformer并行编码多尺度图像。为了更好地发挥两种编码器的优势,我们设计了一个基于交叉注意力的特征嫁接模块,将从Transformer分支提取的特征嫁接到CNN分支中,然后在特征融合模块中聚合这些特征。分心物感知模块被设计为明确地对COD任务中的两个可能的分心物进行建模,以细化粗略的伪装图。我们还提出了最大的人工伪装对象数据集,其中包含2000图像的注释,命名为ACOD2K。我们在四个广泛使用的基准数据集和ACOD2K数据集上进行了广泛的实验。结果表明,我们的方法显着优于其他国家的最先进的方法。代码和ACOD2K将在www.example.com上提供https://github.com/syxvision/FDNet。

1.10 Edge-Aware Mirror Network for Camouflaged Object Detection

用于伪装目标检测的边缘感知镜面网络

https://arxiv.org/abs/2307.03932

在这里插入图片描述
现有的边缘感知的伪装目标检测(COD)方法通常输出的边缘预测在早期阶段。然而,边缘是重要的和基本的因素,在下面的分割任务。由于伪装目标与周围环境的高度视觉相似性,早期的边缘先验预测通常会引入错误的前景-背景,并污染用于分割的特征。为了解决这个问题,我们提出了一种新的边缘感知镜像网络(EAMNet),模型边缘检测和伪装对象分割作为一个交叉细化过程。更具体地,EAMNet具有两分支架构,其中分割诱导的边缘聚合模块和边缘诱导的完整性聚合模块被设计为交叉引导分割分支和边缘检测分支。利用残差连接和门控卷积的引导残差信道注意模块最终更好地从低级别特征中提取结构细节。定量和定性实验结果表明,EAMNet优于现有的尖端基线上三个广泛使用的COD数据集。代码可在www.example.com获取https://github.com/sdy1999/EAMNet。

1.11 Unsupervised 3D out-of-distribution detection with latent diffusion models

基于潜在扩散模型的无监督三维失配检测

https://arxiv.org/abs/2307.03777

在这里插入图片描述
扩展到3D数据的分布外(OOD)检测方法是任何现实世界临床深度学习系统的关键组成部分。经典的去噪扩散概率模型(DDPM)最近被提出作为在2D数据集上执行基于重建的OOD检测的鲁棒方式,但不平凡地扩展到3D数据。在这项工作中,我们建议使用潜在扩散模型(LDMs),使DDPM的缩放到高分辨率的3D医疗数据。我们验证了近和远OOD数据集,并比较它最近提出的,3D启用的方法,使用潜在的Transformer模型(LTM)的方法。所提出的基于LDM的方法不仅实现了统计上显著的更好的性能,它还显示出对底层潜在表示的敏感性较低,更有利的内存缩放,并产生更好的空间异常图。代码可在www.example.com上获得https://github.com/marksgraham/ddpm-ood

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131657892