【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 10 日论文合集)

一、检测相关(10篇)

1.1 Robust Human Detection under Visual Degradation via Thermal and mmWave Radar Fusion

基于热、毫米波雷达融合的视觉退化下的稳健人体检测

https://arxiv.org/abs/2307.03623

在这里插入图片描述
大多数人体检测方法依赖于使用可见光的传感器(例如,RGB相机),但是这样的传感器在具有退化的视觉条件的场景中受到限制。在本文中,我们提出了一种多模式人体检测系统,结合了便携式热像仪和单芯片毫米波雷达。为了减轻由热成像相机的低对比度和雷达点云的多路径噪声引起的噪声检测特征,我们提出了一种贝叶斯特征提取器和一种新的不确定性引导融合方法,该方法超越了各种竞争方法,无论是单模态还是多模态。我们评估所提出的方法在现实世界中的数据收集,并证明我们的方法优于国家的最先进的方法,由一个很大的利润。

1.2 Joint Perceptual Learning for Enhancement and Object Detection in Underwater Scenarios

用于水下场景增强和目标检测的联合感知学习

https://arxiv.org/abs/2307.03536

在这里插入图片描述
水下退化图像极大地挑战了现有的目标检测算法。近年来,研究者试图采用注意机制或复合连接来改善检测器的特征表征。但是,此解决方案无法消除图像内容(如颜色和纹理)退化的影响,只能实现最小的改进。水下目标检测的另一个可行的解决方案是开发复杂的深度架构,以提高图像质量或功能。然而,这些增强模块的视觉吸引力的输出不一定会产生深度探测器的高精度。最近,一些多任务学习方法联合学习水下检测和图像增强,访问有前途的改进。通常,这些方法调用庞大的体系结构和昂贵的计算,从而导致低效的推理。水下目标检测和图像增强是两个相互关联的任务。利用来自两个任务的信息可以使每个任务受益。基于这些事实的意见,我们提出了一个双层优化配方,共同学习水下目标检测和图像增强,然后展开到一个双感知网络(DPNet)的两个任务。具有一个共享模块和两个任务子网的DPNet从两个不同的任务中学习,寻求共享表示。共享表示为图像增强提供了更多的结构细节,并为对象检测提供了丰富的内容信息。最后,我们推导出一个合作的训练策略,以优化参数DPNet。在真实世界和合成水下数据集上的广泛实验表明,我们的方法输出视觉上有利于图像和更高的检测精度。

1.3 RCDN – Robust X-Corner Detection Algorithm based on Advanced CNN Model

RCDN–基于改进CNN模型的稳健X角点检测算法

https://arxiv.org/abs/2307.03505

在这里插入图片描述
平面和非平面图形上X角点的精确检测和定位是机器人和机器视觉中的核心步骤。然而,以前的工作不能在准确性和鲁棒性之间取得很好的平衡,这两者都是评估检测器性能的关键标准。为了解决这个问题,在本文中,我们提出了一种新的检测算法,可以保持高的亚像素精度的输入下的多种干扰,如镜头畸变,极端的姿态和噪声。整个算法采用由粗到精的策略,包含一个X角点检测网络和三种后处理技术来区分正确的角点候选,以及一种混合亚像素细化技术和一种改进的区域生长策略来自动恢复部分可见或被遮挡的棋盘格图案。对真实图像和合成图像的实验结果表明,该算法具有较高的检测率、亚像素精度和鲁棒性。最后,通过摄像机标定和位姿估计实验,验证了该方法与现有方法相比,在定量上也能得到更小的重投影误差。

1.4 HoughLaneNet: Lane Detection with Deep Hough Transform and Dynamic Convolution

HoughLaneNet:深度Hough变换和动态卷积的车道检测

https://arxiv.org/abs/2307.03494

在这里插入图片描述
车道检测的任务由于其复杂性而在自动驾驶领域中获得了相当大的关注。车道可能会给检测带来困难,因为它们可能很窄、支离破碎,并且经常被繁忙的交通所掩盖。然而,已经观察到,车道具有类似于直线的几何结构,从而在利用该特性时导致改善的车道检测结果。为了解决这一挑战,我们提出了一个分层的深度Hough变换(DHT)的方法,结合到Hough参数空间的图像中的所有车道功能。此外,我们改进了点选择方法,并结合了动态卷积模块,以有效地区分原始图像中的车道。我们的网络架构包括一个骨干网络,一个ResNet或金字塔Vision Transformer,一个特征金字塔网络作为提取多尺度特征的颈部,以及一个基于DHT的分层特征聚合头,用于准确分割每个通道。通过利用霍夫参数空间中的车道特征,网络学习对应于每个车道的动态卷积核参数,允许动态卷积模块有效地区分车道特征。随后,车道特征被馈送到特征解码器中,特征解码器预测车道的最终位置。我们提出的网络结构在检测严重遮挡或磨损的车道图像方面表现出更好的性能,这一点可以从我们广泛的实验结果中得到证明,这表明我们的方法优于或与最先进的技术相媲美。

1.5 Registration-Free Hybrid Learning Empowers Simple Multimodal Imaging System for High-quality Fusion Detection

无需注册的混合学习使简单多模式成像系统能够实现高质量的融合检测

https://arxiv.org/abs/2307.03425

在这里插入图片描述
多模态融合检测对成像系统和图像预处理提出了很高的要求,而高质量的预配准系统或图像配准处理都是昂贵的。遗憾的是,现有的融合方法是针对配准的源图像而设计的,并且通过这些方法,非均匀特征(其表示在相同空间位置处表达不同语义信息的特征对)的融合不能达到令人满意的性能。因此,我们提出了IA-VFDnet,这是一个CNN-Transformer混合学习框架,具有统一的高质量多模态特征匹配模块(AKM)和融合模块(WDAF),其中AKM和DWDAF协同工作,以执行高质量的红外感知可见光融合检测,可应用于烟雾和野火检测。此外,在M3 FD数据集上的实验验证了所提出的方法的优越性,IA-VFDnet在常规配准条件下实现了比其他最先进方法更好的检测性能。此外,第一个未注册的多模式烟雾和野火检测基准在这封信中公开提供。

1.6 Open-Vocabulary Object Detection via Scene Graph Discovery

基于场景图发现的开放词汇目标检测

https://arxiv.org/abs/2307.03339

在这里插入图片描述
近年来,开放词汇表(OV)目标检测引起了越来越多的研究关注。与传统的只识别固定类别对象的检测不同,OV检测旨在检测开放类别集中的对象。先前的工作通常利用视觉语言(VL)训练数据(例如,参考接地数据)来识别OV对象。然而,它们仅使用VL数据中的成对名词和单个对象,而这些数据通常包含更多的信息,例如场景图,这对于OV检测也是至关重要的。在本文中,我们提出了一种新的基于场景图的发现网络(SGDN),利用场景图线索OV检测。首先,提出了一种基于场景图的解码器(SGDecoder),包括稀疏场景图引导注意(SSGA)。它捕获场景图并利用它们来发现OV对象。其次,我们提出了基于场景图的预测(SGPred),我们建立了一个基于场景图的偏移回归(SGOR)机制,使场景图提取和对象定位之间的相互增强。第三,在SGPred中设计了一种跨模态学习机制。它以场景图为桥梁,以提高OV对象分类的跨模态嵌入之间的一致性。在COCO和LVIS上的实验证明了该方法的有效性。此外,我们展示了我们的模型OV场景图检测的能力,而以前的OV场景图生成方法不能解决这个任务。

1.7 Facial Landmark Detection Evaluation on MOBIO Database

基于Mobio数据库的人脸标志点检测评价

https://arxiv.org/abs/2307.03329

在这里插入图片描述
MOBIO是一个几乎完全在手机上捕获的双模式数据库。它旨在改善将生物识别技术部署到移动设备的研究。研究已经表明,可以在移动环境中执行面部和说话者识别。人脸标志点定位的目的是找到一组预定义的关键点的二维人脸图像的坐标。面部标志通常具有特定的语义含义,例如:鼻尖或眼睛中心,为其他人脸分析任务,如人脸识别,情感估计和3D人脸重建提供了丰富的几何信息。人脸标志点检测方法大多采用静止人脸数据库,如300W、AFW、AFLW、COFW等进行评价,很少使用移动数据。我们的工作是首先对移动静止数据执行面部标志检测评估,即,来自MOBIO数据库的人脸图像。从这个视听数据库中提取了大约20,600张人脸图像,并手动标记了22个地标作为地面实况。几个国家的最先进的面部标志检测方法,通过这些数据上的性能进行评估。结果表明,来自MOBIO数据库的数据是相当具有挑战性的。该数据库可以是一个新的具有挑战性的人脸标志检测评估。

1.8 That’s BAD: Blind Anomaly Detection by Implicit Local Feature Clustering

基于隐式局部特征聚类的盲异常检测

https://arxiv.org/abs/2307.03243

在这里插入图片描述

最近的研究视觉异常检测(AD)的工业对象/纹理已经取得了相当好的性能。他们考虑一个无监督的设置,特别是一类设置,其中我们假设一组正常的可用性(\textit{即},无异常)图像用于训练。在本文中,我们考虑了一个更具挑战性的情况下,无监督AD,在其中,我们检测异常的一组给定的图像,可能包含正常和异常的样本。该设置不假设已知正常数据的可用性,因此完全不受人类注释的影响,这与最近研究中考虑的标准AD不同。为了清楚起见,我们将设置称为盲异常检测(BAD)。我们表明,BAD可以转换为一个本地离群点检测问题,并提出了一种新的方法PatchCluster,可以准确地检测图像和像素级的异常。实验结果表明,PatchCluster表现出良好的性能,没有正常的数据的知识,甚至相当于SOTA方法应用在一类设置需要它。

1.9 Detecting the Sensing Area of A Laparoscopic Probe in Minimally Invasive Cancer Surgery

微创肿瘤手术中腹腔镜探头敏感面积的检测

https://arxiv.org/abs/2307.03662

在这里插入图片描述
在外科肿瘤学中,由于缺乏可靠的术中可视化工具,即使使用PET和CT等术前成像系统,外科医生也难以识别淋巴结并完全切除癌症。最近已经评估了内窥镜放射引导的癌症检测和切除,其中使用新型拴系腹腔镜伽马探测器来定位术前注射的放射性示踪剂。这既可以增强内窥镜成像,又可以补充术前核成像数据。然而,伽马活性可视化呈现给操作者是具有挑战性的,因为探头是非成像的,并且它不能明显地指示组织表面上的活性起源。最初失败的尝试使用分割或几何方法,但导致发现它可以通过利用高维图像特征和探头位置信息来解决。为了证明这个解决方案的有效性,我们设计并实现了一个简单的回归网络,成功地解决了这个问题。为了进一步验证所提出的解决方案,我们获得并公开发布了使用定制设计的便携式立体腹腔镜系统捕获的两个数据集。通过大量的实验,我们证明了我们的方法可以成功地和有效地检测传感区域,建立一个新的性能基准。代码和数据可在www.example.com上获得https://github.com/br0202/Sensing_area_detection.git

1.10 PseudoCell: Hard Negative Mining as Pseudo Labeling for Deep Learning-Based Centroblast Cell Detection

伪细胞:基于深度学习的中心母细胞检测的硬否定挖掘伪标记法

https://arxiv.org/abs/2307.03211

在这里插入图片描述

基于深度学习的块分类模型已被用于H& E染色的组织样本的全载玻片图像(WSI)中,以帮助病理学家对滤泡性淋巴瘤患者进行分级。然而,这些方法仍然需要病理学家手动识别中心母细胞,并提供优化的标签以获得最佳性能。为了解决这个问题,我们提出了PseudoCell,这是一个在WSI中自动检测centroblast的对象检测框架(源代码可在https://github.com/IoBT-VISTEC/PseudoCell.git获得)。该框架结合了来自病理学家的成中心细胞标签,并将它们与使用细胞的形态学特征从欠采样假阳性预测获得的假阴性标签相结合。通过采用PseudoCell,病理学家的工作量可以减少,因为它准确地缩小了在检查组织期间需要他们注意的区域。根据置信度阈值,PseudoCell可以消除WSI上58.18-99.35%的非中心母细胞组织区域。本研究提出了一种实用的中心母细胞预筛选方法,不需要病理学家的改进改进标签。在讨论部分中提供了关于PseudoCell的实际实现的详细指导。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131638214