【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 26 日论文合集)

一、检测相关(4篇)

1.1 Bridging the Performance Gap between DETR and R-CNN for Graphical Object Detection in Document Images

弥合DETR和R-CNN在文档图像中检测图形对象方面的性能差距

论文地址:

https://arxiv.org/abs/2306.13526

在这里插入图片描述
本文采取了重要的一步,弥合DETR和R-CNN之间的性能差距的图形对象检测。现有的图形对象检测方法在基于CNN的对象检测方法中享有最近的增强,取得了显着的进展。最近,基于变换器的检测器大大提高了通用对象检测性能,消除了手工制作的功能或后处理步骤的需要,如使用对象查询的非最大抑制(NMS)。然而,这种增强的基于变换器的检测算法的有效性还有待验证的问题的图形对象检测。从本质上讲,在DETR的最新进展的启发,我们采用现有的检测Transformer,很少修改图形对象检测。我们以不同的方式修改对象查询,使用点,锚框和添加积极和消极的噪声锚点,以提高性能。这些修改允许更好地处理具有变化的尺寸和纵横比的对象,对对象位置和尺寸的小变化具有更强的鲁棒性,并且改进了对象和非对象之间的图像区分。我们在四个图形数据集上评估我们的方法:PubTables、TableBank、NTable和PubLaynet。在DETR中集成查询修改后,我们优于以前的工作,并实现了新的国家的最先进的结果与mAP 96.9%,95.7%和99.3%的TableBank,PubLaynet,PubTables,分别。从广泛消融的结果表明,基于变换器的方法是更有效的文件分析类似于其他应用程序。我们希望本研究能引起更多的关注,以检测Transformers在文档图像分析中的研究。

1.2 Cascade Subspace Clustering for Outlier Detection

基于级联子空间聚类的孤立点检测

论文地址:

https://arxiv.org/abs/2306.13500

在这里插入图片描述
许多方法的基础上稀疏和低秩表示已经开发,随着保证正确的离群点检测。自表示指出子空间中的点总是可以表示为子空间中其他点的线性组合。一个合适的马尔可夫链可以定义在自表示上,它允许我们识别内点和离群点之间的区别。然而,重建误差的自我表示,仍然是信息检测离群点检测,被忽略了。在本文中,我们提出了一个新的离群点检测框架,结合一系列弱“离群点检测器”到一个单一的强一个迭代的方式构造多通道自表示。在每个阶段,我们构造一个基于弹性网的自表示,并定义一个合适的马尔可夫链来检测离群点。自表示的残差用于下一阶段以学习下一较弱离群值检测器。这样的阶段会重复很多次。并且根据前面的所有结果生成离群值的最终判定。在图像和说话人数据集上的实验结果表明,该方法相对于最先进的稀疏和低秩离群点检测方法的优越性。

1.3 Lesion Detection on Leaves using Class Activation Maps

基于类激活图的叶片病斑检测

论文地址:

https://arxiv.org/abs/2306.13366

在这里插入图片描述
植物叶片上的病变检测是植物病理学和农业研究中的一项重要任务。鉴定病变使得能够评估植物病害的严重程度并做出关于病害控制措施和治疗策略的明智决策。为了检测病变,存在提出众所周知的对象检测器的研究。然而,训练对象检测器以检测诸如病变的小对象可能是有问题的。在这项研究中,我们提出了一种方法,利用类激活图产生的ResNet-18分类器上的植物叶片上的病变检测。在测试集中,我们取得了0.45的成功率,在预测的病灶在叶片的位置。我们的研究提出了一种新的方法,通过利用由ResNet分类器生成的CAM,同时消除了对病变注释过程的需要,植物叶片上的病变检测。

1.4 Deep Omni-supervised Learning for Rib Fracture Detection from Chest Radiology Images

用于胸部放射图像肋骨骨折检测的深度全监督学习

论文地址:

https://arxiv.org/abs/2306.13301

在这里插入图片描述
基于深度学习(DL)的肋骨骨折检测已经显示出在预防死亡和改善患者预后方面发挥重要作用的前景。通常,开发基于DL的目标检测模型需要大量的边界框标注。然而,注释医疗数据是耗时且要求专业知识的,使得获得大量细粒度注释极其不可行。这就迫切需要开发标签有效的检测模型,以减轻放射科医师的标签负担。为了应对这一挑战,对象检测的文献已经见证了弱监督和半监督方法的增加,但仍然缺乏一个统一的框架,利用各种形式的完全标记,弱标记和未标记数据。在本文中,我们提出了一种新的全方位监督对象检测网络,ORF-Netv2,利用尽可能多的可用监督。具体地,引入多分支全监督检测头,其中每个分支用特定类型的监督训练。然后提出了一种基于协同训练的动态标签分配策略,使弱标签和未标签的数据能够灵活、鲁棒地学习。对所提出的框架进行了广泛的评价,三个肋骨骨折数据集的胸部CT和X线。通过利用所有形式的监督,ORF-Netv2在三个数据集上分别实现了34.7、44.7和19.4的mAP,分别超过了仅使用框注释的基线检测器,mAP增益分别为3.8、4.8和5.0。此外,ORF-Netv2在各种情况下始终优于其他竞争性的标签高效方法,显示出标签高效断裂检测的有前途的框架。

二、分类|识别相关(3篇)

2.1 FPGA Implementation of Convolutional Neural Network for Real-Time Handwriting Recognition

卷积神经网络用于笔迹实时识别的FPGA实现

论文地址:

https://arxiv.org/abs/2306.13557

在这里插入图片描述
机器学习(ML)最近是计算机科学中一个飞速发展的领域。作为计算机硬件工程师,我们热衷于流行的软件ML架构的硬件实现,以优化其性能,可靠性和资源使用。在这个项目中,我们设计了一个高度可配置的,实时设备识别手写字母和数字使用Altera DE 1 FPGA套件。我们遵循各种工程标准,包括IEEE-754 32位浮点标准、视频图形阵列(VGA)显示协议、通用异步收发器(UART)协议和集成电路间(I2C)协议,以实现项目目标。这些显着改进了我们的设计在兼容性,可重用性和验证的简单性。遵循这些标准,我们设计了一个32位浮点(FP)指令集架构(ISA)。我们在Verilog系统中开发了一个5级RISC处理器来管理图像处理、矩阵乘法、ML分类和用户界面。在我们的设计中实现并评估了三种不同的ML架构:线性分类(LC)、784-64-10全连接神经网络(NN)和LeNet类卷积神经网络(CNN),具有ReLU激活层和36个类(10个用于数字,26个用于大小写不敏感的字母)。训练过程是在Python脚本中完成的,得到的内核和权重存储在十六进制文件中,并加载到FPGA的SRAM单元中。卷积、池化、数据管理和各种其他ML功能都是由我们定制汇编语言的固件引导的。本文记录了高层次的设计框图,每个系统Verilog模块之间的接口,我们的软件和固件组件的实现细节,并进一步讨论潜在的影响。

2.2 Learning Scene Flow With Skeleton Guidance For 3D Action Recognition

用于3D动作识别的骨架导引学习场景流

论文地址:

https://arxiv.org/abs/2306.13285

在这里插入图片描述
在现有的3D动作识别模式中,3D流已经被很差地检查,虽然传达了丰富的人类动作的运动信息线索。据推测,它对噪声的敏感性使其难以处理,从而挑战了深度模型中的学习过程。这项工作演示了使用的三维流序列的深度时空模型,并进一步提出了一个增量的两级空间注意机制,指导从骨架域,强调运动功能接近身体关节区域,并根据他们的信息量。为此,还引入了扩展的深度骨架模型来学习最具鉴别力的动作运动动力学,以便估计每个关节的信息性得分。随后,在两个模型之间采用后期融合方案来学习高水平的跨模态相关性。在当前最大和最具挑战性的数据集NTU RGB+D上的实验结果,证明了所提出的方法的有效性,实现了国家的最先进的结果。

2.3 Can Continual Learning Improve Long-Tailed Recognition? Toward a Unified Framework

持续学习能提高长尾识别能力吗?迈向统一框架

论文地址:

https://arxiv.org/abs/2306.13275

在这里插入图片描述
长尾识别(LTR)问题出现在从高度不平衡的数据集中学习的背景下,其中不同类别之间的样本数量严重偏斜。LTR方法旨在准确地学习包括较大的Head集和较小的Tail集两者的数据集。我们提出了一个定理,在假设的强凸性的损失函数,在完整的数据集上训练的学习者的权重是在同一学习者严格训练头部的权重的上限内。接下来,我们断言,通过将头和尾的学习作为两个单独的和连续的步骤,连续学习(CL)方法可以有效地更新学习者的权重,以学习尾而不忘记头。首先,我们验证了我们的理论发现与玩具MNIST-LT数据集的各种实验。然后,我们评估了几个CL策略的两个标准LTR基准(CIFAR 100-LT和CIFAR 10-LT)的多个不平衡变化的功效,并表明,标准CL方法实现了强大的性能增益相比,基线和方法的解决方案,已量身定制的LTR。我们还评估了CL技术对现实世界数据的适用性,探索CL自然不平衡的Caltech 256数据集,并证明其优于国家的最先进的分类器。我们的工作不仅统一了LTR和CL,还为利用CL方法的进步,更有效地应对LTR挑战铺平了道路。

三、分割|语义相关(6篇)

3.1 OpenMask3D: Open-Vocabulary 3D Instance Segmentation

OpenMask3D:开放词汇表3D实例分割

论文地址:

https://arxiv.org/abs/2306.13631

在这里插入图片描述
我们介绍了开放词汇表3D实例分割的任务。用于3D实例分割的传统方法在很大程度上依赖于现有的3D注释数据集,这些数据集被限制为对象类别的封闭集合。这对于现实生活中的应用程序来说是一个重要的限制,在现实生活中,人们可能需要执行由与来自各种各样的对象相关的新颖的、开放的词汇表查询指导的任务。最近,已经出现了开放词汇表3D场景理解方法,通过学习场景中的每个点的可查询特征来解决这个问题。虽然这样的表示可以直接用于执行语义分割,但是现有方法在其识别对象实例的能力方面具有限制。在这项工作中,我们解决了这个限制,并提出OpenMask3D,这是一个零镜头的开放词汇表3D实例分割的方法。由预测的类不可知的3D实例掩模的指导,我们的模型聚合每个掩模的功能,通过基于CLIP的图像嵌入的多视图融合。我们在ScanNet200数据集上进行实验和消融研究,以评估OpenMask3D的性能,并提供有关开放词汇表3D实例分割任务的见解。我们表明,我们的方法优于其他开放词汇对应,特别是长尾分布。此外,OpenMask3D超越了封闭词汇表方法的限制,并使对象实例的分割基于自由形式的查询描述对象属性,如语义,几何,可供性和材料属性。

3.2 Segmentation and Tracking of Vegetable Plants by Exploiting Vegetable Shape Feature for Precision Spray of Agricultural Robots

农业机器人精确喷洒中利用蔬菜形状特征的蔬菜分割与跟踪

论文地址:

https://arxiv.org/abs/2306.13518

在这里插入图片描述
随着农业机器人的日益部署,传统的人工喷洒液体肥料和农药正逐渐被农业机器人所取代。对于蔬菜农场中的机器人精确喷雾应用,通过实例分割和鲁棒的植物跟踪进行准确的植物表型分析是非常重要的,并且是后续喷雾动作的先决条件。针对蔬菜类植物的鲁棒跟踪问题,提出了一种多目标跟踪与分割(MOTS)方法,并以多个蔬菜类植物的分割与跟踪为例,解决了连续图像中颜色和纹理相似的蔬菜类植物的跟踪问题。在我们的方法中,轮廓和斑点特征被提取来描述每个个体蔬菜的独特特征,并在不同的图像中关联相同的蔬菜。通过为每种蔬菜分配一个唯一的ID,它确保机器人在沿着农场行移动时对每种蔬菜精确喷洒一次。包括消融研究在内的综合实验进行,这证明了其优越的性能优于两个国家的最新技术(SOTA)MOTS方法。与传统的MOTS方法相比,所提出的方法能够重新识别出相机视野之外的物体,并再次出现使用所提出的数据关联策略,这是重要的,以确保每种蔬菜被喷洒一次时,机器人来回行进。虽然该方法在生菜农场进行了测试,但它可以应用于其他类似的蔬菜,如西兰花和油菜。本文的代码和数据集都是为了社区的利益而公开发布的:https://github.com/NanH5837/LettuceMOTS。

3.3 3DSAM-adapter: Holistic Adaptation of SAM from 2D to 3D for Promptable Medical Image Segmentation

3DSAM-ADAPTER:用于可改进医学图像分割的SAM从2D到3D的整体适应

论文地址:

https://arxiv.org/abs/2306.13465

在这里插入图片描述
尽管分割任何模型(SAM)在日常图像的通用语义分割上取得了令人印象深刻的结果,具有较强的泛化能力,但其在医学图像分割上的表现不太精确且不稳定,特别是在处理涉及小尺寸,不规则形状和低对比度对象的肿瘤分割任务时。值得注意的是,原始SAM架构是针对2D自然图像设计的,因此将不能有效地从体积医学数据中提取3D空间信息。在本文中,我们提出了一种新的自适应方法转移SAM从二维到三维的提示医学图像分割。通过一个整体设计的架构修改方案,我们转移SAM,以支持体积输入,同时保留其预训练参数的大部分重复使用。微调过程以参数高效的方式进行,其中大多数预先训练的参数保持冻结,并且仅引入和调整少数轻量级空间适配器。无论自然数据和医学数据之间的域间隙以及2D和3D之间的空间布置的差异如何,在自然图像上训练的Transformer可以仅通过轻量适配有效地捕获体积医学图像中存在的空间模式。我们在四个开源的肿瘤分割数据集上进行了实验,通过单击提示,我们的模型可以在4个任务中的3个中优于领域最先进的医学图像分割模型,具体来说,肾脏肿瘤,胰腺肿瘤,结肠癌分割分别为8.25%,29.87%和10.11%,肝脏肿瘤分割也实现了类似的性能。我们还比较了我们的适应方法与现有的流行的适配器,并观察到显着的性能改善,在大多数数据集。

3.4 Neural Network Pruning for Real-time Polyp Segmentation

用于实时息肉分割的神经网络剪枝方法

论文地址:

https://arxiv.org/abs/2306.13203

在这里插入图片描述
由于深度学习模型的有效性,计算机辅助治疗已经成为医学成像的一种可行应用。实时推理速度仍然是此类应用程序帮助医务人员的关键要求。尽管通常存在性能和模型尺寸之间的权衡,但已经做出了令人印象深刻的努力来通过牺牲模型尺寸来保持接近原始的性能。神经网络修剪已经成为一个令人兴奋的领域,旨在消除冗余参数,使推理速度更快。在这项研究中,我们展示了神经网络修剪在息肉分割中的应用。我们计算卷积滤波器的重要性分数,并删除具有最小分数的滤波器,这对于某些值的修剪不会降低性能。为了计算重要性分数,我们使用泰勒一阶(TaylorFO)近似网络输出的变化,以去除某些过滤器。具体来说,我们采用梯度归一化反向传播的重要性分数的计算。通过在息肉数据集上的实验,我们验证了我们的方法可以显着减少参数数量和FLOPs保持类似的性能。

3.5 A Sparse Graph Formulation for Efficient Spectral Image Segmentation

一种有效的光谱图像分割的稀疏图表示法

论文地址:

https://arxiv.org/abs/2306.13166

在这里插入图片描述

谱聚类是解决分割问题的传统方法之一。基于归一化切割,它的目的是使用由图定义的目标函数分割图像。尽管它们的数学吸引力,光谱方法传统上被科学界忽视,由于其实际问题和性能不佳。在本文中,我们采用了一个稀疏的图配方的基础上,包括额外的节点到一个简单的网格图。当网格编码像素空间布置时,额外节点考虑像素颜色数据。将原始的归一化切割算法应用于该图导致用于光谱图像分割的简单且可扩展的方法,具有可解释的解决方案。我们的实验还表明,我们提出的方法超过执行传统的光谱算法的分割。

3.6 Unsupervised Deformable Ultrasound Image Registration and Its Application for Vessel Segmentation

无监督变形超声图像配准及其在血管分割中的应用

论文地址:

https://arxiv.org/abs/2306.13329

在这里插入图片描述
本文提出了一种深度学习模型,用于在线速率下超声图像的变形配准,我们称之为U-RAFT。顾名思义,U-RAFT基于RAFT,这是一种用于估计光流的卷积神经网络。然而,U-RAFT可以以无监督的方式训练,并且可以生成用于训练血管分割模型的合成图像。我们提出并比较不同的损失函数训练U-RAFT的配准质量。我们还展示了如何我们的方法,与执行力控制扫描的机器人一起,可以用来生成合成变形图像,以显着扩大股骨血管分割训练数据集的大小,而不需要额外的手动标记。我们在硅胶人体组织体模和体内猪图像上验证了我们的方法。我们表明,U-RAFT生成的合成超声图像与98%和81%的结构相似性指数测量(SSIM)的体模和猪数据集的真实超声图像,分别。我们还表明,合成变形图像从U-RAFT可以用作血管分割模型的数据增强技术,以提高交叉联合(IoU)分割性能。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131397742