【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 16 日论文合集)

一、检测相关(12篇)

1.1 Neuromorphic Seatbelt State Detection for In-Cabin Monitoring with Event Cameras

事件摄像机用于座舱内监控的神经形态安全带状态检测

https://arxiv.org/abs/2308.07802

神经形态视觉传感器或事件相机与常规相机的不同之处在于它们不以指定速率捕获图像。相反,它们异步记录每个像素处的局部亮度变化。因此,事件相机仅记录给定场景中的变化,并且以非常高的时间分辨率、高动态范围和低功率要求来这样做。最近的研究表明,这些特性如何使事件摄像机成为驾驶员监控系统(DMS)中非常实用的传感器,能够跟踪高速眼球运动和眨眼。这项研究提供了一个概念证明,扩展基于事件的DMS技术,包括安全带状态检测。使用事件模拟器,从近红外(NIR)数据集生成了汽车乘员的108,691个合成神经形态帧的数据集,并将其分成训练集、验证集和测试集,用于基于递归卷积神经网络(CNN)的安全带状态检测算法。此外,还收集了一组较小的真实事件数据,并保留用于测试。在二元分类任务中,紧固/未紧固框架被识别为F1评分分别为0.989和0.944的模拟和真实测试集。当问题扩展到还对系紧/解开安全带的动作进行分类时,分别获得了0.964和0.846的F1评分。

1.2 Future Video Prediction from a Single Frame for Video Anomaly Detection

用于视频异常检测的单帧未来视频预测

https://arxiv.org/abs/2308.07783

视频异常检测(VAD)是计算机视觉中一项重要而又具有挑战性的任务。主要的挑战是由于训练样本的罕见性,以模拟所有异常情况。因此,半监督异常检测方法得到了更多的关注,因为它们专注于建模法线,并且通过测量与正常模式的偏差来检测异常。尽管这些方法在建模正常运动和外观方面取得了令人印象深刻的进展,但到目前为止,长期运动建模还没有得到有效的探索。受未来帧预测代理任务的能力的启发,我们引入了从一个单一的帧未来视频预测的任务,作为一个新的代理任务的视频异常检测。该代理任务减轻了先前方法在学习较长运动模式中的挑战。此外,我们取代初始和未来的原始帧与其相应的语义分割映射,这不仅使该方法知道对象类,但也使预测任务不太复杂的模型。在基准数据集(Shanghai Tech、UCSD-Ped 1和UCSD-Ped 2)上的大量实验表明了该方法的有效性和性能优于基于SOTA预测的VAD方法。

1.3 Multi-scale Promoted Self-adjusting Correlation Learning for Facial Action Unit Detection

用于面部动作单元检测的多尺度提升自调整相关学习

https://arxiv.org/abs/2308.07770

面部动作单元(AU)检测是情感计算和社交机器人中的一项重要任务,因为它有助于识别通过面部表情表达的情感。解剖学上,AU之间存在无数的相关性,这些相关性包含丰富的信息,对于AU检测至关重要。以前的方法使用基于专家经验或特定基准的统计规则的固定AU相关性,但是通过手工制作的设置来全面反映AU之间的复杂相关性是具有挑战性的。存在采用全连接图来详尽地学习这些依赖关系的替代方法。然而,这些方法可能导致计算爆炸和与大数据集的高度依赖性。为了解决这些挑战,本文提出了一种新的自调整AU相关学习(SACL)方法,以较少的计算量的AU检测。该方法通过有效地利用在网络的不同阶段中提取的不同级别的AU运动和情感表示信息的特性来自适应地学习和更新AU相关图。此外,本文探讨了多尺度学习在相关信息提取中的作用,并设计了一种简单有效的多尺度特征学习(MSFL)方法来提高AU检测的性能。通过将AU相关信息与多尺度特征相结合,该方法获得了更鲁棒的特征表示,用于最终的AU检测。大量的实验表明,在广泛使用的AU检测基准数据集上,该方法的性能优于现有方法,其参数和FLOP分别仅为最佳方法的28.7%和12.0%。此方法的代码可在\url{https://github.com/linuxsino/Self-adjusting-AU}获得。

1.4 Whale Detection Enhancement through Synthetic Satellite Images

利用合成卫星图像增强鲸鱼检测

https://arxiv.org/abs/2308.07766

随着一些海洋种群的迅速减少,收集和分析有关海洋种群的数据对于为包括鲸鱼在内的各种海洋动物制定有效的保护政策变得越来越重要。现代计算机视觉算法使我们能够在广泛的领域中检测图像中的鲸鱼,进一步加快和增强监测过程。然而,这些算法严重依赖于大型训练数据集,这是具有挑战性和耗时的,特别是在海洋或水生环境中收集。然而,人工智能的最新进展使人们有可能综合创建用于训练机器学习算法的数据集,从而实现以前不可能实现的新解决方案。在这项工作中,我们提出了一个解决方案-SeaDroneSim 2基准套件,它通过生成空中和卫星合成图像数据集来解决这一挑战,以提高鲸鱼的检测,并减少训练数据收集所需的工作量。我们表明,与单独使用真实数据进行训练相比,通过增加10%的真实数据,我们可以在鲸鱼检测上实现15%的性能提升。我们开源了仿真平台SeaDroneSim 2的代码和通过它生成的数据集。

1.5 Exploiting Sparsity in Automotive Radar Object Detection Networks

稀疏性在汽车雷达目标检测网络中的应用

扫描二维码关注公众号,回复: 16331297 查看本文章
https://arxiv.org/abs/2308.07748

对环境的精确感知对于确保自动驾驶系统的安全可靠运行至关重要。雷达目标检测网络是这种系统的一个基本部分。基于CNN的对象检测器在这种情况下表现出良好的性能,但它们需要大量的计算资源。本文研究了稀疏卷积对象检测网络,该网络将强大的基于网格的检测与低计算资源相结合。我们调查雷达的具体挑战,并提出稀疏核点柱(SKPP)和双体素点卷积(DVPC)作为补救措施的网格渲染和稀疏骨干架构。我们在nuScenes上评估了我们的SKPP-DPVCN架构,它在Car AP4.0中的性能比基线高出5.89%,比之前的最先进水平高出4.19%。此外,SKPP-DPVCN将平均尺度误差(ASE)比基线降低了21.41%。

1.6 ChartDETR: A Multi-shape Detection Network for Visual Chart Recognition

ChartDETR:一种面向视觉图表识别的多形状检测网络

https://arxiv.org/abs/2308.07743

视觉图表识别系统越来越受到关注,这是由于对从图表图像中自动识别表格标题和值的需求不断增长。当前的方法依赖于关键点检测来估计图表中的数据元素形状,但在后处理中遭受分组错误。为了解决这个问题,我们提出了ChartDETR,一个基于变换器的多形状检测器,本地化的关键点的规则形状的角落,以重建多个数据元素在一个单一的图表图像。我们的方法通过在集合预测中引入查询组来一次预测所有数据元素的形状,从而消除了对进一步后处理的需要。该属性允许ChartDETR作为一个统一的框架,能够在不改变网络架构的情况下表示各种图表类型,有效地检测各种形状的数据元素。我们在三个数据集上评估了ChartDETR,在所有图表类型中实现了竞争性的结果,而无需任何额外的增强。例如,ChartDETR在Adobe Synthetic上获得了0.98的F1分数,大大超过了之前F1分数为0.71的最佳模型。此外,我们在ExcelChart400k上获得了0.97的最新结果。该代码将公开提供。

1.7 Identity-Consistent Aggregation for Video Object Detection

视频对象检测中的身份一致性聚合

https://arxiv.org/abs/2308.07737

在视频对象检测(VID)中,通常的做法是利用来自视频的丰富的时间上下文来增强每个帧中的对象表示。现有的方法不加区别地对待从不同对象获得的时间上下文,忽略了它们的不同身份。虽然直观地,但是聚合不同帧中的相同对象的局部视图可以促进对对象的更好理解。因此,在本文中,我们的目标是使模型专注于每个对象的身份一致的时间上下文,以获得更全面的对象表示和处理快速对象外观变化,如遮挡,运动模糊等。然而,在现有VID模型之上实现这一目标面临着低效率的问题,由于其冗余区域建议和非并行逐帧预测方式。为了帮助这一点,我们提出ClipVID,VID模型配备了身份一致的聚合(ICA)层,专门设计用于挖掘细粒度和身份一致的时间上下文。它通过集合预测策略有效地减少了冗余,使ICA层非常有效,并进一步允许我们设计一种架构,为整个视频剪辑进行并行剪辑预测。大量的实验结果证明了我们的方法的优越性:在ImageNet VID数据集上实现了最先进的(SOTA)性能(84.7% mAP),同时运行速度比之前的SOTA快7倍(39.3 fps)。

1.8 DiffGuard: Semantic Mismatch-Guided Out-of-Distribution Detection using Pre-trained Diffusion Models

DiffGuard:基于预训练扩散模型的语义失配引导越界检测

https://arxiv.org/abs/2308.07687

给定一个分类器,语义分布外(OOD)样本的固有属性是,它们的内容在语义上不同于所有合法类,即语义不匹配。最近有一项工作将其直接应用于OOD检测,其采用条件生成对抗网络(cGAN)来扩大图像空间中的语义失配。虽然在小数据集上实现了显着的OOD检测性能,但由于难以以输入图像和标签作为条件来训练cGAN,因此它不适用于ImageNet规模的数据集。由于与cGAN相比,扩散模型更容易训练并且适用于各种条件,因此在这项工作中,我们建议直接使用预先训练的扩散模型进行语义失配引导的OOD检测,称为DiffGuard。具体而言,给定OOD输入图像和来自分类器的预测标签,我们试图扩大在这些条件下重建的OOD图像与原始输入图像之间的语义差异。我们还提出了几个测试时间的技术,以进一步加强这种差异。实验结果表明,DiffGuard在Cifar-10和大规模ImageNet的硬案例上都是有效的,并且可以很容易地与现有的OOD检测技术相结合,以实现最先进的OOD检测结果。

1.9 Action Class Relation Detection and Classification Across Multiple Video Datasets

跨多个视频数据集的动作类关系检测与分类

https://arxiv.org/abs/2308.07558

Meta视频数据集(MetaVD)提供了主要数据集中的动作类之间的注释关系,用于视频中的人类动作识别。尽管这些注释关系能够增强数据集,但它仅适用于MetaVD所涵盖的那些关系。为了让外部数据集享受同样的好处,需要确定其操作类与MetaVD中的操作类之间的关系。为了解决这个问题,我们考虑了两个新的机器学习任务:动作类关系检测和分类。我们提出了一个统一的模型来预测动作类之间的关系,使用语言和视觉信息类。实验结果表明,(i)用于文本和视频的预训练最近神经网络模型有助于高预测性能,(ii)基于动作标签文本的关系预测比基于视频更准确,和(iii)结合两种模态的预测的混合方法可以进一步提高预测性能,在某些情况下。

1.10 Improved Region Proposal Network for Enhanced Few-Shot Object Detection

改进的区域建议网络用于增强的Few-Shot目标检测

https://arxiv.org/abs/2308.07535

尽管深度学习在对象检测任务中取得了显著成功,但深度神经网络的标准训练需要访问所有类别中的大量注释图像。数据注释是一项艰巨而耗时的工作,特别是在处理不常见的对象时。Few-Shot对象检测(FSOD)方法已经出现,作为基于深度学习的经典对象检测方法的局限性的解决方案。FSOD方法表现出显着的性能,通过实现鲁棒的对象检测,使用显着较少的训练数据。FSOD面临的一个挑战是,来自不属于训练类的固定集合的新类的实例出现在背景中,并且基本模型可能会将它们作为潜在对象来拾取。这些对象的行为类似于标签噪声,因为它们被分类为训练数据集类之一,导致FSOD性能下降。我们开发了一个半监督算法来检测,然后利用这些未标记的新对象作为阳性样本在FSOD训练阶段,以提高FSOD的性能。具体来说,我们开发了一个分层的三元分类区域建议网络(HTRPN)本地化潜在的未标记的新对象,并分配给他们新的对象标签,以区分这些对象从基础训练数据集类。我们改进的分层采样策略的区域建议网络(RPN)也提高了感知能力的对象检测模型的大对象。我们测试我们的方法和COCO和PASCAL VOC基线,通常在FSOD文献中使用。我们的实验结果表明,我们的方法是有效的,优于现有的国家的最先进的(SOTA)FSOD方法。我们的实施提供作为补充,以支持结果的再现性。

1.11 ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

ICAFusion:迭代交叉注意引导特征融合多光谱目标检测

https://arxiv.org/abs/2308.07504

有效的多光谱图像特征融合是多光谱目标检测的关键。以前的研究已经证明了使用卷积神经网络的特征融合的有效性,但这些方法是敏感的图像错位,由于在局部范围内的特征相互作用的固有缺陷,导致性能下降。为了解决这个问题,提出了一种新的特征融合框架的双交叉注意力Transformers器模型的全局特征的相互作用和捕获互补的信息跨模态的同时。该框架通过查询引导的交叉注意机制增强了对象特征的可辨别性,从而提高了性能。然而,堆叠用于特征增强的多个Transformer块引起大量参数和高空间复杂度。为了处理这个问题,受人类审查知识的过程的启发,提出了一种迭代交互机制,以共享参数之间的块多模态Transformers,降低模型的复杂性和计算成本。所提出的方法是通用的和有效的,可以集成到不同的检测框架和使用不同的骨干。在KAIST、FLIR和VEDAI数据集上的实验结果表明,该方法具有更好的性能和更快的推理速度,适用于各种实际场景。代码将在https://github.com/chanchanchan97/ICAFusion上提供。

1.12 BSED: Baseline Shapley-Based Explainable Detector

BSED:基于基线Shapley的可解释检测器

https://arxiv.org/abs/2308.07490

可解释人工智能(XAI)在对象识别领域取得了重大进展,显着图被用来突出与学习模型预测相关的图像特征。尽管这些进步使基于人工智能的技术更容易被人类理解,但仍有一些问题暴露出来。一些方法给出的解释与预测无关,并且不能保证XAI(公理)的有效性。在这项研究中,我们提出了基于Shapley的基线可解释检测器(BSED),它将Shapley值扩展到对象检测,从而提高解释的有效性。Shapley值可以将学习模型的预测归因于基线特征,同时满足可解释性公理。BSED的处理成本在合理的范围内,而原始Shapley值在计算上昂贵得令人望而却步。此外,BSED是一种可推广的方法,可以以模型不可知的方式应用于各种检测器,并且在没有细粒度参数调整的情况下解释各种检测目标。这些优势可以使XAI的实用性成为可能。我们提出了定量和定性的比较与现有的方法,以证明我们的方法在解释有效性方面的优越性能。此外,我们提出了一些应用,如校正检测的基础上从我们的方法的解释。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/132488401
今日推荐