【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月16日论文合集)

一、检测相关(15篇)

1.1 OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection

OpenOOD v1.5:增强的分发外检测基准

论文地址:

https://arxiv.org/abs/2306.09301

分布外(OOD)检测对于开放世界智能系统的可靠运行至关重要。尽管出现了越来越多的面向对象的检测方法,评估不一致的跟踪在这一领域的进展提出了挑战。OpenOOD v1发起了OOD检测评估的统一,但在可扩展性和可用性方面面临限制。作为回应,本文介绍了OpenOOD v1.5,从它的前身,确保准确,标准化和用户友好的OOD检测方法的评估显着改进。值得注意的是,OpenOOD v1.5将其评估功能扩展到ImageNet等大规模数据集,研究了重要但尚未开发的全谱OOD检测,并引入了新功能,包括在线排行榜和易于使用的评估器。这项工作也有助于深入的分析和见解来自全面的实验结果,从而丰富了知识库的OOD检测方法。通过这些增强,OpenOOD v1.5旨在推动进步,并为OOD检测研究提供更强大和更全面的评估基准。

1.2 Zero-Shot Anomaly Detection with Pre-trained Segmentation Models

基于预训练分割模型的零炮异常检测

论文地址:

https://arxiv.org/abs/2306.09269

本技术报告概述了我们提交的视觉异常和新奇检测(VAND)2023挑战赛的zero-shot轨道。的WINCLIP框架的性能的基础上,我们的目标是提高系统的本地化能力,通过集成zero-shot分割模型。此外,我们执行前景实例分割,使模型能够专注于图像的相关部分,从而使模型能够更好地识别小的或微妙的偏差。我们的管道不需要外部数据或信息,可以直接应用于新的数据集。我们的团队(Variance Vigilance Vanguard)在VAND挑战的zero-shot赛道中排名第三,并在VisA数据集上的样本/像素水平上实现了81.5/24.2的平均F1-max得分。

1.3 DEYOv2: Rank Feature with Greedy Matching for End-to-End Object Detection

DEYOv2:端到端目标检测的贪婪匹配等级特征

论文地址:

https://arxiv.org/abs/2306.09165

本文提出了一种新的对象检测器DEYOv 2,第一代DEYO(DETR与YOLO)模型的改进版本。DEYOv 2与其前身类似,DEYOv 2采用渐进式推理方法来加速模型训练并提高性能。该研究深入研究了一对一匹配在优化中的局限性,并提出了有效解决问题的解决方案,如秩特征和贪婪匹配。这种方法使DEYOv 2的第三阶段能够最大限度地从第一和第二阶段获取信息,而无需NMS,实现端到端优化。通过结合密集查询、稀疏查询、一对多匹配和一对一匹配,DEYOv 2利用了每种方法的优点。在相同的设置下,它优于所有现有的基于查询的端到端检测器。当使用ResNet-50作为COCO数据集的主干和多尺度特征时,DEYOv 2分别在12和24个时期内达到51.1 AP和51.8 AP。与端到端模型DINO相比,DEYOv 2在两个历元设置中提供了2.1 AP和1.4 AP的显着性能增益。据我们所知,DEYOv 2是第一个完全端到端的对象检测器,它结合了经典检测器和基于查询的检测器的各自优势。

1.4 Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection

CVPR2023视觉异常和新颖性检测挑战的制胜方案:以数据为中心的异常检测的多模式提示

论文地址:

https://arxiv.org/abs/2306.09067

本技术报告介绍了团队\textit{Segment Any Anomaly}在CVPR 2023视觉异常和新奇检测(VAND)挑战赛中的获胜解决方案。超越单模态提示符,\textit{e.g.},语言提示,我们提出了一个新的框架,\textit{即},Segment Any Any Anomaly +(SAA + + +),用于zero-shot异常分割,并具有多模态提示,用于级联现代基础模型的正则化。受Segment Anything等基础模型的zero-shot泛化能力的启发,我们首先探索其组件(SAA),以利用各种多模态先验知识进行异常定位。随后,我们进一步引入来自领域专家知识和目标图像上下文的多模态提示(SAA + + +),以实现基础模型对异常分割的非参数适应。建议的SAA + + +模型实现了国家的最先进的性能在几个异常分割基准,包括VisA和MVTec-AD,在zero-shot设置。我们将在\href{Segment-Any-Anomaly}{https://github.com/caoyunkang/Segment-Any-Anomaly} \footnote发布CVPR 2023 VAND挑战赛获胜解决方案的代码{详细信息的扩展版论文可在~\cite{cao 2023 segment}获得。}

1.5 Context-Aware Change Detection With Semi-Supervised Learning

基于半监督学习的上下文感知变化检测

论文地址:

https://arxiv.org/abs/2306.08935

利用地球观测数据进行变化探测在量化灾害对受灾地区的影响方面发挥着至关重要的作用。虽然像Sentinel-2这样的数据源提供了丰富的光学信息,但它们经常受到云层覆盖的阻碍,限制了它们在灾难场景中的使用。然而,利用灾前光学数据可以提供有关该地区的有价值的背景信息,例如土地覆盖类型,植被覆盖,土壤类型,从而能够更好地了解灾害的影响。在这项研究中,我们开发了一个模型来评估灾前哨兵-2数据在变化检测任务中的贡献,重点是受灾地区。拟议的上下文感知变化检测网络(CACDN)利用灾前哨兵-2数据,灾前和灾后哨兵-1数据和辅助数字高程模型(DEM)数据的组合。该模型在洪水和滑坡检测上得到验证,并使用三个指标进行评估:精度-召回率曲线下面积(AUPRC)、并集交集(IoU)和平均IoU。初步结果表明,显着改善(4%,AUPRC,3-7%的IoU,3-6%的平均IoU)模型的变化检测能力时,与灾前的光学数据,反映了使用上下文信息的有效性,准确的洪水和滑坡检测。

1.6 Searching for the Fakes: Efficient Neural Architecture Search for General Face Forgery Detection

伪装搜索:通用人脸伪造检测的高效神经结构搜索

论文地址:

https://arxiv.org/abs/2306.08830

俗话说“眼见为实”。但是,随着数字人脸编辑工具的发展,我们不能再相信我们所看到的。虽然人脸伪造检测已经取得了可喜的进展,但目前大多数方法都是由人类专家手动设计的,这是耗费人力的。在本文中,我们开发了一个基于神经架构搜索(NAS)的端到端框架,用于深度伪造检测,它可以在没有人为干预的情况下自动设计网络架构。首先,创建一个面向伪造的搜索空间,以选择合适的操作来执行此任务。其次,我们提出了一个新的性能估计指标,引导搜索过程中选择更一般的模型。跨数据集搜索也被认为是开发更通用的架构。最后,我们连接的细胞在级联金字塔的方式进行最终的伪造分类。与人工设计的最先进的网络相比,我们的方法在数据集内和跨数据集的情况下都具有竞争力的性能。

1.7 GenImage: A Million-Scale Benchmark for Detecting AI-Generated Image

GenImage:检测人工智能生成图像的百万级基准

论文地址:

https://arxiv.org/abs/2306.08571

生成模型生成照片图像的非凡能力加剧了人们对虚假信息传播的担忧,从而导致对能够区分人工智能生成的假图像和真实图像的检测器的需求。然而,缺乏包含来自最先进的图像生成器的图像的大型数据集对这种检测器的发展构成了障碍。在本文中,我们介绍了GenImage数据集,它具有以下优点:1)大量的图像,包括超过一百万对人工智能生成的假图像和收集的真实图像。2)丰富的图像内容,包含广泛的图像类。3)最先进的生成器,使用先进的扩散模型和GANs合成图像。上述优点允许在GenImage上训练的检测器进行彻底的评估,并证明对不同图像的强大适用性。我们对数据集进行了全面的分析,并提出了两项任务,用于评估类似真实世界场景中的检测方法。交叉生成器图像分类任务测量在一个生成器上训练的检测器在其他生成器上测试时的性能。退化图像分类任务评估检测器在处理诸如低分辨率、模糊和压缩图像之类的退化图像方面的能力。通过GenImage数据集,研究人员可以有效地加快开发和评估与主流方法相比更优秀的AI生成的图像检测器。

1.8 Predict to Detect: Prediction-guided 3D Object Detection using Sequential Images

预测到检测:使用序列图像的预测制导的三维目标检测

论文地址:

https://arxiv.org/abs/2306.08528

最近的基于相机的3D对象检测方法已经引入了连续帧以提高检测性能,希望多个帧将减轻大的深度估计误差。尽管改进了检测性能,但现有工作依赖于朴素融合方法(例如,级联)或限于静态场景(例如,时间立体声),忽略了对象的运动提示的重要性。这些方法没有充分利用顺序图像的潜力,并且显示出有限的性能改进。为了解决这一限制,我们提出了一种新的3D对象检测模型,P2D(预测检测),将预测方案集成到检测框架中,以明确提取和利用运动特征。P2D仅使用过去的帧来预测当前帧中的对象信息以学习时间运动特征。然后,我们介绍了一种新的时间特征聚合方法,认真利用鸟瞰图(BEV)功能的基础上预测的对象信息,从而准确的3D对象检测。实验结果表明,P2D提高了3.0%和3.7%的顺序基于图像的基线相比,mAP和NDS,说明结合预测方案可以显着提高检测精度。

1.9 X-Detect: Explainable Adversarial Patch Detection for Object Detectors in Retail

X-Detect:零售业目标检测器的可解释敌意补丁检测

论文地址:

https://arxiv.org/abs/2306.08422

广泛应用于各个领域(如零售)的对象检测模型已被证明容易受到对抗性攻击。用于检测对对象检测器的对抗性攻击的现有方法难以检测新的现实攻击。我们提出了X-Detect,这是一种新型的对抗性补丁检测器,可以:i)实时检测敌对样本,使辩护人能够采取预防行动; ii)对发出的警报提供解释,以支持防御者的决策过程,以及iii)处理新攻击形式的陌生威胁。给定一个新的场景,X-Detect使用一组可解释的设计检测器,这些检测器利用对象提取、场景操作和特征变换技术来确定是否需要发出警报。X-Detect在物理和数字空间中使用五种不同的攻击场景(包括自适应攻击)以及COCO数据集和我们新的Superstore数据集进行了评估。物理评估是在现实世界中使用智能购物车设置进行的,包括在1,700个对抗视频中记录的17个对抗补丁攻击。结果表明,X-Detect在区分所有攻击场景的良性和敌对场景方面优于最先进的方法,同时保持0% FPR(无误报)并为所提出的警报提供可行的解释。有demo可用。

1.10 Object Detection in Hyperspectral Image via Unified Spectral-Spatial Feature Aggregation

基于统一光谱-空间特征融合的高光谱图像目标检测

论文地址:

https://arxiv.org/abs/2306.08370

基于深度学习的高光谱图像(HSI)分类和目标检测技术由于其在图像内容分析、解释和更广泛的HSI应用中的重要作用而受到了极大的关注。然而,目前的高光谱目标检测方法主要强调光谱或空间信息,忽略了这两个方面之间的宝贵的互补关系。在这项研究中,我们提出了一种新的\textbf{S}pectral-\textbf {S}patial \textbf{A}ggregation(S2 ADet)对象检测器,有效地利用了高光谱图像中固有的丰富的光谱和空间互补信息。S2 ADet包括高光谱信息解耦(HID)模块、双流特征提取网络和一级检测头。HID模块通过波段选择和主成分分析聚合光谱和空间信息来处理高光谱图像,从而减少冗余。基于所获得的空间和光谱聚合信息,我们提出了一个特征聚合双流网络交互光谱空间特征。此外,为了解决现有数据库的局限性,我们注释了一个广泛的数据集,指定为HOD 3 K,包含3,242个在不同的现实世界场景中捕获的高光谱图像,并包含三个对象类。这些图像具有512 x256像素的分辨率,覆盖范围从470 nm到620 nm的16个波段。在两个数据集上的综合实验表明,S2 ADet超越了现有的最先进的方法,实现了鲁棒性和可靠的结果。本工作的演示代码和数据集可在\url{https://github.com/hexiao-cs/S2ADet}上公开获得。

1.11 SaliencyCut: Augmenting Plausible Anomalies for Open-set Fine-Grained Anomaly Detection

SaliencyCut:扩展开放集细粒度异常检测中的似然异常

论文地址:

https://arxiv.org/abs/2306.08366

开集细粒度异常检测是一项具有挑战性的任务,需要学习有区别的细粒度特征来检测在训练期间甚至看不到的异常。作为一种廉价而有效的方法,数据增强已被广泛用于创建伪异常以更好地训练此类模型。最近的智慧的增强方法集中在生成随机伪实例,可能会导致混合的增强实例与看到的异常,或出了典型的异常范围。为了解决这个问题,我们提出了一种新的显着性指导的数据增强方法,显着性切割,产生伪的,但更常见的异常往往留在合理的异常范围。此外,我们部署了一个双头学习策略,包括正常和异常学习头,学习每个样本的异常得分。理论分析表明,这种机制提供了一个更容易处理和更严格的数据对数似然下界。然后,我们在异常学习头中设计了一个新的补丁式残差模块,以从每个样本中提取和评估细粒度的异常特征,从而促进异常实例的判别式表示的学习。在六个真实世界的异常检测数据集上进行的广泛实验表明,我们的方法在各种设置下的基线和其他最先进的方法的优越性。

1.12 Early Detection of Late Blight Tomato Disease using Histogram Oriented Gradient based Support Vector Machine

基于直方图梯度支持向量机的番茄晚疫病早期检测

论文地址:

https://arxiv.org/abs/2306.08326

番茄是地球上最重要的水果之一。它在任何国家的农业生产中都起着重要而有益的作用。本研究提出了一种新的智能技术,用于早期检测番茄晚疫病。这项工作提高了数据集的图像从外地(植物村数据集)的增加,并提出了一种混合算法组成的支持向量机(SVM)和直方图为导向的梯度(HOG)的实时检测晚疫病番茄病害。提出一种基于HOG的支持向量机模型用于番茄晚疫病的早期检测。为了检查所提出的模型的MSE,准确率,精度和召回方面的性能相比,决策树和KNN。先进技术在农业中的整合有可能彻底改变该行业,使其更加高效,可持续和有利可图。这项关于番茄疾病早期检测的研究工作有助于智能农业的重要性日益增加,对气候智能型农业的需求,对更有效地利用自然资源的需求日益增加,以及对更高作物产量的需求。所提出的支持向量机和HOG的混合算法具有显着的潜力,在番茄晚疫病的早期检测。所提出的模型对决策树和KNN算法的性能和结果可能有助于选择最好的算法,为未来的应用。这项研究工作可以帮助农民做出数据驱动的决策,以优化作物产量和质量,同时减少农业实践对环境的影响。

1.13 Multiclass Confidence and Localization Calibration for Object Detection

用于目标检测的多类置信度和定位校正

论文地址:

https://arxiv.org/abs/2306.08271

尽管在许多具有挑战性的计算机视觉问题中实现了高预测准确性,但最近的研究表明,深度神经网络(DNN)往往会做出过于自信的预测,使其校准不良。用于改进DNN校准的大多数现有尝试限于分类任务并且限于校准域内预测。令人惊讶的是,在研究对象检测方法的校准方面几乎没有尝试,对象检测方法在基于视觉的安全敏感和安全关键应用中占据关键空间。在本文中,我们提出了一种新的训练时间校准现代目标检测方法的技术。它能够通过利用其预测不确定性来联合校准多类置信度和框定位。我们进行了广泛的实验,在几个域和域外的检测基准。结果表明,我们提出的训练时间校准方法始终优于几个基线,减少校准误差的域内和域外的预测。我们的代码和模型可在www.example.com上获得https://github.com/bimsarapathiraja/MCCL。

1.14 Securing Visually-Aware Recommender Systems: An Adversarial Image Reconstruction and Detection Framework

保护视觉感知推荐系统:一种对抗性图像重建与检测框架

论文地址:

https://arxiv.org/abs/2306.07992

随着丰富的视觉数据(诸如图像)变得容易与项目相关联,视觉感知推荐系统(VARS)已经被广泛用于不同的应用中。最近的研究表明,VARS很容易受到项目图像对抗性攻击的影响,这会给与这些项目相关的干净图像增加人类无法察觉的干扰。对VARS的攻击对VARS广泛使用的电子商务和社交网络等广泛应用提出了新的安全挑战。如何保护VARS免受这种对抗性攻击成为一个关键问题。目前,对于如何设计针对VARS的视觉攻击的安全防御策略还缺乏系统的研究。在本文中,我们试图填补这一空白,提出了一个对抗性的图像重建和检测框架,以确保VARS。我们提出的方法可以同时(1)通过基于全局Vision Transformers的图像重建来保护VARS免受以局部扰动为特征的对抗性攻击;以及(2)使用新的对比学习方法准确地检测对抗性示例。同时,我们的框架被设计为既作为一个过滤器和检测器,使他们可以联合训练,以提高我们的防御策略的灵活性,以各种攻击和VARS模型。我们已经进行了广泛的实验研究与两种流行的攻击方法(FGSM和PGD)。我们在两个真实世界的数据集上的实验结果表明,我们对视觉攻击的防御策略是有效的,并优于现有的方法对不同的攻击。此外,我们的方法可以检测敌对的例子,具有较高的准确性。

1.15 Improving Zero-Shot Detection of Low Prevalence Chest Pathologies using Domain Pre-trained Language Models

利用领域预训练语言模型改进低患病率胸部病变的Zero-Shot检测

论文地址:

https://arxiv.org/abs/2306.08000

最近zero-shot学习的进展使得能够使用成对的图像-文本数据来代替结构化标签,从而取代对专家注释数据集的需求。基于CLIP的CheXzero等模型利用了胸部X射线判读领域的这些进步。我们假设,领域预训练模型,如CXR-BERT,BlueBERT和ClinicalBERT,通过以破坏原始模型对齐为代价替换BERT权重,可以提高具有特定领域知识的CLIP类模型的性能。我们评估了具有特定领域预训练的zero-shot分类模型用于检测低患病率病理的性能。尽管替换原始CLIP-BERT的权重会降低模型在常见疾病上的性能,但我们发现,预训练的文本塔在低患病率疾病上的表现特别好。这激发了未来的集成模型与不同训练的语言模型的组合,以获得最大的性能。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131314700