【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 14 日论文合集)

一、检测相关(6篇)

1.1 LVLane: Deep Learning for Lane Detection and Classification in Challenging Conditions

LVLane:挑战条件下车道检测和分类的深度学习

https://arxiv.org/abs/2307.06853

在这里插入图片描述

车道检测在自动驾驶汽车和先进辅助驾驶系统(ADAS)领域起着举足轻重的作用。多年来,出现了许多算法,从基本的图像处理技术到复杂的深度神经网络。基于深度学习的模型的性能高度依赖于其训练数据的质量。因此,这些模型在遇到诸如极端照明条件、部分可见的车道标记和稀疏的车道标记(如Botts点)等具有挑战性的场景时通常会经历性能下降。为了解决这个问题,我们提出了一个基于深度学习方法的端到端车道检测和分类系统。在我们的研究中,我们引入了一个独特的数据集,精心策划,以涵盖对最先进(SOTA)模型构成重大挑战的场景。通过微调选定的模型,我们的目标是实现增强的定位精度。此外,我们提出了一个基于CNN的分类分支,与检测器无缝集成,便于识别不同的车道类型。此架构可实现明智的车道变更决策,并提供更具弹性的ADAS功能。我们还研究了使用混合精度训练和测试对不同模型和批量大小的影响。在广泛使用的TuSimple数据集,加州理工学院车道数据集和我们的LVLane数据集上进行的实验评估证明了我们的模型在具有挑战性的场景中准确检测和分类车道的有效性。我们的方法在TuSimple数据集上实现了最先进的分类结果。论文被接受后,将公布工作代码。

1.2 Garbage in, garbage out: Zero-shot detection of crime using Large Language Models

垃圾输入,垃圾输出:使用大型语言模型对犯罪进行Zero-Shot检测

https://arxiv.org/abs/2307.06844

在这里插入图片描述

本文提出了利用大型语言模型学习的常识知识,对监控视频的文本描述进行犯罪zero-shot推理。我们表明,当视频(手动)转换为高质量的文本描述,大型语言模型能够检测和分类犯罪与国家的最先进的性能,只使用zero-shot推理。然而,现有的自动视频到文本的方法是无法生成足够的质量,以支持推理的视频描述(垃圾视频描述到大型语言模型,垃圾)。

1.3 Robotic surface exploration with vision and tactile sensing for cracks detection and characterisation

用于裂纹检测和表征的视觉和触觉感知机器人表面探测

https://arxiv.org/abs/2307.06784

在这里插入图片描述

本文提出了一种新的算法,通过光纤的视觉和触觉分析的基础上裂纹定位和检测。采用基于光纤的指形传感器进行数据采集,为分析和实验收集数据。为了检测裂缝的可能位置,使用相机来扫描环境,同时运行对象检测算法。一旦检测到裂纹,就从裂纹的骨架化版本创建全连接图。最小生成树,然后用于计算最短路径,探索裂纹,然后用于开发的机器人机械手的运动规划。运动规划器将裂缝划分为多个节点,然后分别对其进行探索。然后,操纵器开始探索并执行触觉数据分类,以确认在该位置中是否确实存在裂缝,或者仅仅是视觉算法的假阳性。如果检测到裂纹,则还计算分支的长度、宽度、取向和数量。重复此操作,直到探测到裂纹的所有节点。 为了验证完整的算法,执行各种实验:通过全扫描和运动规划算法对裂纹的探测进行比较,使用视觉和触觉数据的组合实现用于裂纹分类和几何分析的基于频率的特征。从实验的结果,它表明,所提出的算法是能够检测裂纹和改善的结果,从视觉,正确分类裂纹和他们的几何形状与最小的成本由于运动规划算法。

1.4 Multimodal Object Detection in Remote Sensing

遥感中的多模式目标检测

https://arxiv.org/abs/2307.06724

在这里插入图片描述

遥感中的目标检测是一项重要的计算机视觉任务,深度学习技术已经取得了重大进展。然而,在这一领域的大多数现有的作品集中在使用通用对象检测,并没有利用多模态数据融合的潜力。在本文中,我们提出了一个比较的方法,多模态对象检测遥感,调查可用的多模态数据集适合评估,并讨论未来的发展方向。

1.5 Weakly supervised marine animal detection from remote sensing images using vector-quantized variational autoencoder

基于矢量量化变分自动编码器的遥感图像弱监督海洋动物检测

https://arxiv.org/abs/2307.06720

在这里插入图片描述

本文研究了一种基于重构的海洋环境中航空图像弱监督动物检测方法。这样的方法利用直接在输入空间上计算度量的异常检测框架,与特征嵌入方法相比增强了可解释性和异常定位。基于矢量量化变分自动编码器在计算机视觉数据集异常检测中的成功,我们将其应用于海洋动物检测领域,并解决处理噪声数据的挑战。为了评估我们的方法,我们将其与现有的方法进行比较,从航空图像数据的海洋动物检测的背景下。在两个专用数据集上进行的实验表明,所提出的方法比最近的研究在文献中的优越性能。我们的框架提供了改进的解释性和本地化的异常,监测海洋生态系统和减轻人类活动对海洋动物的影响提供了宝贵的见解。

1.6 Automated Deception Detection from Videos: Using End-to-End Learning Based High-Level Features and Classification Approaches

视频中的自动欺骗检测:基于端到端学习的高层特征和分类方法

https://arxiv.org/abs/2307.06625

在这里插入图片描述

欺骗检测是一个跨学科的领域,吸引了来自心理学,犯罪学,计算机科学和经济学的研究人员。我们提出了一种结合深度学习和判别模型的多模态方法,用于自动欺骗检测。使用视频模式,我们采用卷积端到端学习来分析凝视,头部姿势和面部表情,与最先进的方法相比,取得了令人鼓舞的结果。由于有限的训练数据,我们还利用判别模型进行欺骗检测。虽然序列到类的方法进行了探索,判别模型优于他们,由于数据稀缺。我们的方法进行了评估五个数据集,包括一个新的滚动骰子实验的动机是经济因素。结果表明,面部表情优于凝视和头部姿势,并结合模式与特征选择提高检测性能。不同数据集表达特征的差异强调了特定场景训练数据的重要性以及上下文对欺骗行为的影响。跨数据集实验强化了这些发现。尽管低风险数据集(包括滚动骰子实验)带来了挑战,但欺骗检测性能超过了机会水平。我们提出的多模态方法和综合评估揭示了从视频模态自动化欺骗检测的潜力,为未来的研究开辟了道路。

二、分割|语义相关(4篇)

2.1 RVD: A Handheld Device-Based Fundus Video Dataset for Retinal Vessel Segmentation

RVD:一种基于手持设备的眼底视频视网膜血管分割方法

https://arxiv.org/abs/2307.06577

在这里插入图片描述

视网膜血管分割通常以利用台式设备收集的基于图像的数据集为基础。静态图像自然地失去视网膜波动的动态特性,导致数据集丰富性降低,并且台式设备的使用由于其有限的可访问性而进一步限制了数据集的可扩展性。考虑到这些限制,我们引入了第一个基于视频的视网膜数据集,采用手持设备进行数据采集。该数据集包括从四个不同诊所收集的635个基于智能手机的眼底视频,涉及415名50至75岁的患者。它在空间和时间维度上提供视网膜结构的全面和精确的注释,旨在推进脉管系统分割的前景。具体而言,数据集提供三个级别的空间注释:用于总体视网膜结构描绘的二元血管掩模、用于区分静脉和动脉的一般静脉-动脉掩模、以及用于进一步表征每个动脉和静脉的粒度的细粒度静脉-动脉掩模。此外,数据集提供了捕获血管脉动特性的时间注释,有助于检测需要细粒度识别血液动力学波动的眼部疾病。在应用中,我们的数据集表现出显着的域转移相对于台式设备捕获的数据,从而对现有的方法提出了很大的挑战。在实验中,我们在我们的数据集上提供了评估指标和基准结果,反映了它为血管分割任务提供的潜力和挑战。我们希望这个具有挑战性的数据集将大大有助于眼科疾病诊断和早期预防的发展。

2.2 Multi-objective Evolutionary Search of Variable-length Composite Semantic Perturbations

变长复合语义扰动的多目标进化搜索

https://arxiv.org/abs/2307.06548

在这里插入图片描述

深度神经网络已被证明容易受到对抗性攻击的影响,这种攻击的形式是在图像上添加特定的扰动以产生错误的输出。设计更强大的对抗性攻击方法可以帮助更可靠地评估DNN模型的鲁棒性。为了减轻港口负担并提高攻击性能,自动机器学习(AutoML)最近成为一种成功的技术,可以帮助自动找到接近最佳的对抗性攻击策略。然而,现有的关于AutoML对抗性攻击的工作仅关注基于 L ∞ L_{\infty} L-范数的扰动。事实上,语义扰动由于其自然性和物理可实现性而受到越来越多的关注。为了弥合AutoML和语义对抗攻击之间的差距,我们提出了一种新的方法,称为可变长度复合语义扰动的多目标进化搜索(MES-VCSP)。具体而言,我们构建了变长复合语义扰动的数学模型,提供了五种基于梯度的语义攻击方法。允许多次执行攻击序列中的相同类型的扰动。此外,我们引入了多目标进化搜索NSGA-II和邻域搜索组成,以找到接近最优的变长攻击序列。在CIFAR 10和ImageNet数据集上的实验结果表明,与现有方法相比,MES-VCSP可以获得攻击成功率更高、更自然、时间开销更少的对抗性示例。

2.3 Full-resolution Lung Nodule Segmentation from Chest X-ray Images using Residual Encoder-Decoder Networks

基于残差编解码网的胸部X光图像全分辨率肺结节分割

https://arxiv.org/abs/2307.06547

在这里插入图片描述

肺癌是癌症死亡的主要原因,并且早期诊断与积极预后相关。胸部X射线(CXR)为肺癌诊断提供了廉价的成像模式。使用CXR难以将可疑结节与血管和骨结构区分开。计算机视觉以前曾被提出来帮助人类放射科医生完成这项任务,然而,领先的研究使用下采样图像和计算昂贵的方法,这些方法具有未经证实的泛化能力。相反,这项研究使用高效的编码器-解码器神经网络来定位肺结节,该神经网络处理全分辨率图像以避免下采样导致的任何信号丢失。编码器-解码器网络使用JSRT肺结节数据集进行训练和测试。该网络用于从独立的外部CXR数据集定位肺结节。使用自动化框架测量灵敏度和假阳性率,以消除任何观察者的主观性。这些实验允许确定用于广义肺结节定位的最佳网络深度、图像分辨率和预处理流水线。我们发现,结节定位的微妙性的影响,与更微妙的结节被检测到在早期的训练时期。因此,我们提出了一种新的自集成模型,从三个连续的时代集中的验证最佳。该集合在10倍内部测试中实现了85%的灵敏度,其中每个图像的假阳性为8。在形态学假阳性减少后,在假阳性率为6时实现了81%的灵敏度。该结果与基于线性和空间滤波的计算更复杂的系统相当,但具有比其他方法更快的亚秒级推理时间。所提出的算法取得了良好的泛化效果对外部数据集的灵敏度为77%,在7.6的假阳性率。

2.4 Deep learning-based Segmentation of Rabbit fetal skull with limited and sub-optimal annotations

基于深度学习的兔胎颅骨有限和次优标注分割

https://arxiv.org/abs/2307.06392

在这里插入图片描述
在本文中,我们提出了一种基于深度学习的方法来分割荷兰带兔胎儿的微CT图像中的骨骼结构,这可以帮助评估药物诱导的骨骼异常,作为发育和生殖毒理学(DART)中所需的研究。我们的策略利用来自26个micro-CT体积的22个颅骨的次优分割标签,并将它们映射到250个未标记的体积,在该体积上训练基于CNN的深度分割模型。在实验中,我们的模型能够在测试集上的所有骨骼上实现0.89的平均Dice相似系数(DSC),并且26个颅骨中的14个达到平均DSC >0.93。我们的下一步是分割整个身体,然后开发一个模型来分类异常。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131721497