【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月31日论文合集)

一、检测相关(10篇)

1.1 Table Detection for Visually Rich Document Images

视觉丰富的文档图像的表格检测

论文地址:

https://arxiv.org/abs/2305.19181

在这里插入图片描述
表格检测(TD)是实现视觉丰富文档理解的基本任务。目前的研究通常将TD问题表述为目标检测问题,然后利用基于交集的度量来评估模型性能,并利用基于交集的损失函数来优化模型。TD应用通常要求预测结果覆盖所有表内容,避免信息丢失。然而,IoU和基于IoU的损失函数不能直接反映预测结果的信息损失程度。因此,我们建议将IoU解耦为地面实况覆盖项和预测覆盖项,其中前者可用于测量预测结果的信息损失。 此外,文档中的表格通常很大,分布稀疏,并且没有重叠,因为它们旨在总结基本信息,以便人类读者易于阅读和解释。因此,在本研究中,我们使用SparseR-CNN作为基础模型,并通过使用高斯噪声增强图像大小区域建议和多对一标签分配来进一步改进模型。 为了证明所提出的方法的有效性,并与国家的最先进的方法比较公平,我们进行了实验,并使用基于IoU的评价指标来评估模型的性能。实验结果表明,该方法可以始终优于国家的最先进的方法在不同的IoU为基础的度量在各种数据集上。我们进行进一步的实验,以显示所提出的解耦IoU的TD应用程序的优越性,通过更换IoU的损失函数和评价指标与建议解耦IoU同行。实验结果表明,我们提出的解耦IoU损失可以鼓励模型,以减轻信息损失。

1.2 DENTEX: An Abnormal Tooth Detection with Dental Enumeration and Diagnosis Benchmark for Panoramic X-rays

Dentex:一种牙齿计数异常的牙齿检测和全景X光诊断基准

论文地址:

https://arxiv.org/abs/2305.19112

在这里插入图片描述
全景X射线经常用于牙科治疗计划,但其解释既耗时又容易出错。人工智能(AI)有可能帮助分析这些X射线,从而提高牙科诊断和治疗计划的准确性。然而,设计用于此目的的自动化算法带来了重大挑战,主要是由于注释数据的稀缺性和解剖结构的变化。为了解决这些问题,牙科枚举和诊断全景X射线挑战赛(DENTEX)已与2023年的医学图像计算和计算机辅助干预国际会议(MICCAI)联合组织。这项挑战旨在促进异常牙齿的多标签检测算法的开发,使用三种类型的分层注释数据:部分注释的象限数据、部分注释的象限枚举数据和完全注释的象限枚举诊断数据,包括四种不同的诊断。在本文中,我们提出了评估参与者的算法的充分注释的数据,另外调查的性能变化象限,枚举和诊断标签在检测异常牙齿的结果。这个注释数据集的提供,以及这项挑战的结果,可能为创建AI驱动的工具奠定基础,这些工具可以在牙科领域提供更精确,更有效的诊断和治疗计划。评估代码和数据集可访问https://github.com/ibrahimethemhamamci/DENTEX

1.3 TrueDeep: A systematic approach of crack detection with less data

TrueDeep:一种用较少数据进行裂纹检测的系统方法

论文地址:

https://arxiv.org/abs/2305.19088

在这里插入图片描述
监督和半监督语义分割算法需要大量的注释数据才能实现良好的性能。在许多情况下,数据不可用或者注释是昂贵的。这项工作的目的是表明,通过将领域知识与深度学习架构相结合,我们可以用更少的数据实现类似的性能。我们使用了公开的裂缝分割数据集,并表明使用知识选择输入图像可以显着提高基于深度学习的架构的性能。我们提出的方法有许多倍的优势,如低注释和训练成本,以及更少的能源消耗。我们已经衡量了我们的算法的性能定量的平均交集超过工会(mIoU)和F得分。我们的算法,开发了23%的整体数据;在测试数据上具有类似的性能,并且在多个盲数据集上具有显著更好的性能。

1.4 Multi-modal Queried Object Detection in the Wild

野外多模式查询目标检测

论文地址:

https://arxiv.org/abs/2305.18980

在这里插入图片描述
我们引入MQ-Det,一个有效的架构和预训练策略设计,利用文本描述与开集泛化和视觉样本丰富的描述粒度的类别查询,即多模态查询对象检测,为现实世界的检测与开放的词汇类别和各种粒度。MQ-Det将视觉查询集成到现有的完善的语言查询检测器中。一个即插即用的门控类可扩展的感知器模块冻结检测器上提出了类别文本与类明智的视觉信息。针对冻结检测器带来的学习惯性问题,提出了一种视觉条件下的掩蔽语言预测策略。MQ-Det简单而有效的架构和训练策略设计与大多数语言查询对象检测器兼容,从而产生多功能应用程序。实验结果表明,多模态查询大大提高了开放世界检测。例如,MQ-Det在LVIS基准测试中将最先进的开放集检测器GLIP显著提高了+7.8%的zero-shot AP,在13个Few-Shot下游任务中平均提高了+6.3%的AP,GLIP只需要3%的预训练时间。代码可在www.example.com获得https://github.com/YifanXu74/MQ-Det。

1.5 Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space

双曲空间学习弱监督视听暴力检测

论文地址:

https://arxiv.org/abs/2305.18797

在这里插入图片描述
近年来,弱监督视听暴力检测的任务得到了相当大的关注。这项任务的目标是识别暴力段的多模态数据的基础上视频级标签。尽管在这一领域取得了进展,传统的欧几里得神经网络,已被用于先前的研究中,遇到的困难,由于特征空间的限制,在捕捉高度歧视性的表示。为了克服这一点,我们提出了HyperVD,这是一种新的框架,可以在双曲空间中学习片段嵌入,以提高模型识别能力。我们的框架包括一个迂回融合模块的多模态融合,有效地减轻了音频和视觉信号之间的模态不一致。此外,我们贡献了两个分支的完全双曲图卷积网络挖掘特征相似性和时间关系片段在双曲空间。通过学习该空间中的片段表示,框架有效地学习暴力事件和正常事件之间的语义差异。XD暴力基准测试的大量实验表明,我们的方法优于国家的最先进的方法一个相当大的保证金。

1.6 VVC Extension Scheme for Object Detection Using Contrast Reduction

基于对比度降低的VVC目标检测扩展方案

论文地址:

https://arxiv.org/abs/2305.18782

在这里插入图片描述
近年来,由于使用深度学习的图像识别技术的显着发展,使用人工智能(AI)的视频分析已被广泛使用。2019年,运动图像专家组(MPEG)开始将机器视频编码(VCM)作为用于图像识别的视频编码技术进行标准化。在音圈编码的框架下,对图像识别精度和视频压缩性能都提出了更高的要求。在本文中,我们提出了一个扩展方案的视频编码的目标检测使用通用视频编码(VVC)。与用于人类视觉的视频不同,用于对象检测的视频不需要大图像尺寸或高对比度。因为图像的下采样可以减少要传输的信息量。由于图像对比度的降低,图像的熵变小。因此,在我们提出的方案中,原始图像的大小和对比度降低,然后编码与VVC编码器,以实现高压缩性能。然后,使用双三次方法将来自VVC解码器的输出图像恢复到其原始图像大小。实验结果表明,所提出的视频编码方案取得了更好的编码性能比常规VVC的目标检测精度。

1.7 Align, Perturb and Decouple: Toward Better Leverage of Difference Information for RSI Change Detection

调整、干扰和解耦:更好地利用差异信息进行RSI更改检测

论文地址:

https://arxiv.org/abs/2305.18714

在这里插入图片描述
变化检测是遥感图像分析中广泛采用的一种技术,用于发现地貌的长期演化。为了突出语义变化的区域,以前的努力主要关注学习单个图像的代表性特征描述符,而差异信息要么是用简单的差异操作建模,要么是通过特征交互隐式嵌入。然而,这种差异建模可能是有噪声的,因为它遭受非语义变化并且缺乏来自图像内容或上下文的明确指导。在本文中,我们重新审视了特征差异对于RSI中变化检测的重要性,并提出了一系列操作来充分利用差异信息:对准、扰动和解耦(APD)。首先,对齐利用上下文相似性来补偿特征空间中的非语义差异。接下来,采用用语义扰动训练的差异模块来学习更广义的变化估计器,其反向引导特征提取和预测。最后,一个解耦的双解码器结构的设计预测语义变化的内容感知和内容不可知的方式。LEVIR-CD,WHU-CD和DSIFN-CD的基准上进行了大量的实验,证明我们提出的操作带来显着的改善,并在类似的比较条件下取得有竞争力的结果。代码可在www.example.com上获得https://github.com/wangsp1999/CD-Research/tree/main/openAPD

1.8 UMD: Unsupervised Model Detection for X2X Backdoor Attacks

UMD:X2X后门攻击的无监督模型检测

论文地址:

https://arxiv.org/abs/2305.18651

在这里插入图片描述
后门(特洛伊木马)攻击是深度神经网络的常见威胁,其中来自嵌入后门触发器的一个或多个源类的样本将被错误分类为对抗性目标类。用于检测分类器是否被后门攻击的现有方法大多被设计用于具有单个对抗目标(例如,全对一攻击)。据我们所知,在没有监督的情况下,没有任何现有方法可以有效地解决具有任意数量的源类的更一般的X2 X攻击,每个源类与任意目标类配对。在本文中,我们提出了UMD,第一个无监督模型检测方法,通过对抗(源,目标)类对的联合推理,有效地检测X2 X后门攻击。特别是,我们首先定义了一个新的可转移性统计来衡量和选择一个子集的推定后门类对建议的聚类方法的基础上。然后,这些选定的类对联合评估的基础上聚合的反向工程的触发器大小的检测推理,使用一个强大的和无监督的异常检测器,我们提出了。我们对CIFAR-10,GTSRB和Imagenette数据集进行了全面的评估,并表明我们的无监督UMD在针对各种X2 X攻击的检测准确性方面分别优于SOTA检测器(即使有监督)17%,4%和8%。我们还显示了强大的检测性能UMD对几个强大的自适应攻击。

1.9 Fashion Object Detection for Tops & Bottoms

基于鞋底的时尚目标检测

论文地址:

https://arxiv.org/abs/2305.18482

在这里插入图片描述
时尚是世界上最大的产业之一,近年来计算机视觉技术变得越来越流行,特别是对于诸如对象检测和服装分割之类的任务。即使计算机视觉解决方案快速增长,特别是针对时尚行业,许多问题仍远未解决。因此,并非在任何时候,调整开箱即用的预训练计算机视觉模型将提供所需的解决方案。在本论文中提出了一个管道,需要一个嘈杂的图像与一个人,特别是检测的区域与服装的底部或顶部。我们的解决方案实现了能够在图像中找到人体部位的模型,例如全身对半身,或者找不到人。然后,其他模型知道有一个人和它的组成(例如。并不总是我们具有全身)找到图像的边界框/区域,其很可能对应于底部或顶部。为了创建边界框/区域任务,专门准备了基准数据集。结果表明,Mask RCNN解决方案是鲁棒的,并且足够通用,可以在看不见的服装/时尚数据中使用和扩展。

1.10 A Study on Deep CNN Structures for Defect Detection From Laser Ultrasonic Visualization Testing Images

用于激光超声可视化检测图像缺陷检测的深层细胞神经网络结构研究

论文地址:

https://arxiv.org/abs/2305.18327

在这里插入图片描述
近年来,超声无损检测的重要性日益增加,人们对激光超声可视化检测的潜力寄予厚望,它将激光超声检测与散射波可视化技术相结合。即使散射波被可视化,检查人员仍然需要仔细检查图像。为了实现自动化,本文提出了一种深度神经网络,用于LUVT图像中的自动缺陷检测和定位。为了探索适合这项任务的神经网络的结构,我们比较了LUVT图像分析问题与通用对象检测问题。利用SUS304平板的真实数据进行的数值实验表明,该方法在预测性能方面比一般的目标检测模型更有效。我们还表明,预测所需的计算时间比一般的对象检测模型的速度更快。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/130981114