【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(9 月 4 日论文合集)

一、检测相关(8篇)

1.1 Impact of Image Context for Single Deep Learning Face Morphing Attack Detection

图像上下文对单个深度学习人脸变形攻击检测的影响

https://arxiv.org/abs/2309.00549

由于技术进步而引起的安全问题的增加已经导致利用生理或行为特征来增强识别的生物计量方法的普及。人脸识别系统(FRSs)已经变得普遍,但是它们仍然容易受到图像操纵技术(诸如人脸变形攻击)的攻击。本研究调查了输入图像的对齐设置对深度学习人脸变形检测性能的影响。我们分析了人脸轮廓和图像上下文之间的相互联系,并提出了最佳的对齐条件,人脸变形检测。

1.2 A Theoretical and Practical Framework for Evaluating Uncertainty Calibration in Object Detection

目标检测中不确定度定标评定的理论与实践框架

https://arxiv.org/abs/2309.00464

深度神经网络的激增导致机器学习系统在各种现实世界的应用中变得越来越多。因此,在这些领域中对高度可靠的模型的需求不断增长,这使得在考虑深度学习的未来时,不确定性校准问题变得至关重要。在考虑对象检测系统时尤其如此,对象检测系统通常存在于安全关键应用中,例如自动驾驶和机器人技术。出于这个原因,这项工作提出了一种新的理论和实践框架来评估对象检测系统的不确定性校准的背景下。建议的不确定性校准指标的鲁棒性,通过一系列有代表性的实验。拟定不确定度校准度量的代码:https://github.com/pedrormconde/Uncertainty_Calibration_Object_Detection。

1.3 What Makes Good Open-Vocabulary Detector: A Disassembling Perspective

怎样才是好的开放词汇检测器:一种反汇编视角

https://arxiv.org/abs/2309.00227

开放词汇检测是一种新的目标检测方法,旨在定位和识别由无界词汇表定义的不可见目标。这是具有挑战性的,因为传统的检测器只能从预定义的类别中学习,因此无法检测和定位预定义词汇之外的对象。为了应对挑战,OVD利用预训练的跨模态VLM,例如CLIP、ALIGN等。以往的研究主要集中在开放式词汇分类部分,对本地化部分关注较少。我们认为,对于一个好的OVD检测器,分类和定位应并行研究的新对象类别。在这项工作中,我们表明,提高本地化以及交叉模态分类相辅相成,并组成一个很好的OVD检测器共同。我们分析了三个家庭的OVD方法与不同的设计重点。我们首先提出了一种普通方法,即,裁剪由定位器获得的边界框并将其调整大小到CLIP中。接下来,我们介绍另一种方法,它结合了一个标准的两阶段的对象检测器与CLIP。两阶段对象检测器包括视觉骨干、区域提议网络(RPN)和感兴趣区域(RoI)头。我们解耦RPN和ROI头(DRR),并使用RoIAlign提取有意义的功能。在这种情况下,它避免调整对象的大小。为了进一步加快训练时间并减少模型参数,我们将RPN和ROI头(CRR)结合起来作为第三种方法。我们对这三种类型的方法在不同的设置进行了广泛的实验。在OVD-COCO基准测试中,DRR获得了最佳性能,达到了35.8 Novel AP 50 _{50} 50,比之前的最新技术水平(SOTA)绝对提高了2.8。对于OVD-LVIS,在罕见类别中,DRR超过之前的SOTA 1.9 AP 50 _{50} 50。我们还提供了一个名为PID的对象检测数据集,并提供了PID的基线。

1.4 Gap and Overlap Detection in Automated Fiber Placement

自动铺丝中的缝隙和重叠检测

https://arxiv.org/abs/2309.00206

识别和纠正制造缺陷,特别是间隙和重叠,对于确保通过自动纤维铺放(AFP)生产高质量的复合材料部件至关重要。这些缺陷是最常见的问题,可以显着影响复合材料部件的整体质量。人工检查既耗时又耗力,使其成为一种效率低下的方法。为了克服这一挑战,实施自动化缺陷检测系统是最佳解决方案。在本文中,我们介绍了一种新的方法,使用光学相干断层扫描(OCT)传感器和计算机视觉技术来检测和定位复合材料零件中的间隙和重叠。我们的方法涉及生成复合表面的深度图图像,其突出显示表面上的复合带(或丝束)的高度。通过检测每个丝束的边界,我们的算法可以比较连续的丝束,并识别它们之间可能存在的间隙或重叠。任何超过预定公差阈值的间隙或重叠都被认为是制造缺陷。为了评估我们的方法的性能,我们将检测到的缺陷与专家注释的地面真相进行比较。结果表明,高水平的准确性和效率的差距和重叠分割。

1.5 Typing on Any Surface: A Deep Learning-based Method for Real-Time Keystroke Detection in Augmented Reality

任意表面打字:增强现实中基于深度学习的实时击键检测方法

https://arxiv.org/abs/2309.00174

令人沮丧的文本输入界面一直是参与增强现实(AR)中的社交活动的主要障碍。流行的选择,如空中键盘接口,无线键盘或语音输入,要么遭受不良的人体工程学设计,有限的准确性,或者只是尴尬地在公共场合使用。本文提出并验证了一种基于深度学习的方法,该方法使AR应用程序能够从任何AR耳机都可以捕获的用户视角RGB视频流中准确预测击键。这使得用户能够在任何平坦表面上执行打字活动,并且消除了对物理或虚拟键盘的需要。一个两阶段的模型,结合了现成的手标志提取器和一种新的自适应卷积递归神经网络(C-RNN),使用我们新建立的数据集进行训练。最终模型能够以约32 FPS自适应处理用户视角视频流。此基本模型在键入每分钟40个单词(wpm)时实现了91.05美元的整体准确率,这是普通人用双手在物理键盘上打字的速度。归一化Levenshtein距离也进一步证实了我们的方法在现实世界中的适用性。有希望的结果突出了我们的方法的可行性和我们的方法被集成到各种应用程序的潜力。我们还讨论了将这种技术引入生产系统所需的限制和未来的研究。

1.6 Application of Machine Learning in Melanoma Detection and the Identification of ‘Ugly Duckling’ and Suspicious Naevi: A Review

机器学习在黑色素瘤检测及‘丑小鸭’和可疑Naevi鉴别中的应用

https://arxiv.org/abs/2309.00265

被称为痣的皮肤病变表现出不同的特征,如大小、形状和颜色。“丑小鸭痣”的概念在监测黑色素瘤时起作用,指的是具有独特特征的病变,将其与附近的其他病变区分开来。由于同一个体内的病变通常具有相似性并遵循可预测的模式,因此丑小鸭痣突出为不寻常的,并可能表明癌性黑色素瘤的存在。计算机辅助诊断(CAD)已成为研究和开发领域的重要参与者,因为它将机器学习技术与各种患者分析方法相结合。其目的是提高准确性和简化决策,同时应对专业人员的短缺。这些自动化系统在专家可用性有限的皮肤癌诊断中尤其重要。因此,它们的使用可能会带来拯救生命的好处,并降低医疗保健的成本。考虑到早期与晚期黑色素瘤相比生存率的急剧变化,早期检测对于有效治疗和患者结局至关重要。机器学习(ML)和深度学习(DL)技术在皮肤癌分类中得到了普及,有效地解决了挑战,并提供了与专家相当的结果。本文广泛介绍了用于检测黑素瘤和可疑痣的现代机器学习和深度学习算法。它从皮肤癌和不同类型痣的一般信息开始,然后介绍AI,ML,DL和CAD。然后,本文讨论了各种ML技术的成功应用,如卷积神经网络(CNN)与皮肤科医生的表现相比,用于黑色素瘤检测。最后,它检查用于UD痣检测和识别可疑痣的ML方法。

1.7 Optimized Deep Feature Selection for Pneumonia Detection: A Novel RegNet and XOR-Based PSO Approach

用于肺炎检测的优化深度特征选择:一种基于RegNet和XOR的粒子群算法

https://arxiv.org/abs/2309.00147

肺炎仍然是儿童死亡的一个重要原因,特别是在资源和专业知识有限的发展中国家。肺炎的自动检测可以极大地帮助解决这一挑战。在这项研究中,提出了一种基于XOR的粒子群优化算法(PSO)来从RegNet模型的倒数第二层中选择深度特征,旨在提高CNN模型在肺炎检测上的准确性。异或粒子群优化算法通过只使用一个超参数进行初始化,并且每次迭代所需的计算时间最少,从而实现了算法的简化。此外,它实现了勘探和开发之间的平衡,导致在适当的解决方案上趋同。通过提取163个特征,达到了令人印象深刻的98%的准确度,这表明与以前的基于PSO的方法相当的准确度。所提出的方法的源代码可在GitHub存储库中获得。

1.8 A Sequential Framework for Detection and Classification of Abnormal Teeth in Panoramic X-rays

一种用于全景X线片异常牙齿检测和分类的序列框架

https://arxiv.org/abs/2309.00027

本文介绍了我们在MICCAI 2023年全景X射线挑战牙科计数和诊断的解决方案。我们的方法包括一个多步骤的框架,量身定制的任务的检测和分类异常牙齿。该解决方案包括三个连续阶段:牙齿实例检测、健康实例过滤和异常实例分类。在第一阶段,我们采用Faster-RCNN模型检测和识别牙齿。在随后的阶段中,我们设计了一个模型,该模型将预训练的U-net的编码途径与Vgg 16架构合并,该U-net针对牙齿病变检测进行了优化。最后一个模型被用来过滤出健康牙齿。然后,对任何识别出的异常牙齿进行分类,可能落入以下一种或多种条件:嵌埋、根尖周病变、龋、深龋。执行牙齿实例检测的模型实现了0.49的AP评分。负责识别健康牙齿的模型获得了0.71的F1评分。同时,针对多标签牙齿疾病分类训练的模型获得了0.76的F1评分。该代码可在https://github.com/tudordascalu/2d-teeth-detection-challenge上获得。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/132753444