文章目录

一、检测相关(6篇)
二、分类|识别相关(3篇)
三、分割|语义相关(11篇)

一、检测相关(6篇)

1.1 Detector-Free Structure from Motion

不受运动影响的无探测器结构

论文地址：

https://arxiv.org/abs/2306.15669

在这里插入图片描述
我们提出了一个新的结构从运动框架来恢复准确的相机姿势和点云无序图像。传统的SfM系统通常依赖于跨多个视图的可重复关键点的成功检测作为第一步，这对于纹理较差的场景是困难的，并且较差的关键点检测可能会破坏整个SfM系统。我们提出了一个新的无检测器的SfM框架，以利用最近的成功的无检测器的匹配，以避免早期确定的关键点，同时解决多视图不一致的问题的无检测器的匹配。具体而言，我们的框架首先从量化的无检测器匹配重建粗SfM模型。然后，通过一种新的迭代细化流水线，该流水线在基于注意力的多视图匹配模块和几何细化模块之间迭代以细化特征轨迹和提高重建精度。实验表明，该框架优于现有的基于检测器的SfM系统在常见的基准数据集。我们还收集了一个纹理贫乏的SfM数据集，以证明我们的框架重建纹理贫乏的场景的能力。基于此框架，我们在2023年图像匹配挑战赛中获得了 $\textit {first place}$ 。

1.2 Irregular Change Detection in Sparse Bi-Temporal Point Clouds using Learned Place Recognition Descriptors and Point-to-Voxel Comparison

基于位置识别学习和点对体素比较的稀疏双时相点云不规则变化检测

论文地址：

https://arxiv.org/abs/2306.15416

在这里插入图片描述
变化检测和不规则的物体提取在三维点云是一项具有挑战性的任务，这是非常重要的，不仅自主导航，而且更新现有的数字孪生模型的各种工业环境。本文提出了一种创新的方法，使用深度学习的位置识别描述符和基于体素到点比较的不规则对象提取来检测3D点云中的变化。该方法首先使用地图合并算法对齐双时态点云，以建立一个共同的坐标系。然后，它利用深度学习技术从3D点云扫描中提取鲁棒性和区分性特征，这些特征用于检测连续点云帧之间的变化，从而找到变化区域。最后，对改变的区域进行采样并在两个时间实例之间进行比较，以提取导致区域改变的任何障碍物。所提出的方法在现实世界的现场实验中成功地进行了评估，在那里它能够检测到不同类型的变化，在3D点云，如对象或渣土堆添加和位移，展示了该方法的有效性。本研究的结果表明，各种应用程序，包括安全和安全监测建筑工地，测绘和勘探的重要影响，并建议在这一领域的潜在未来研究方向。

1.3 Transferability Metrics for Object Detection

用于目标检测的可转移性度量

论文地址：

https://arxiv.org/abs/2306.15306

在这里插入图片描述
迁移学习旨在充分利用现有的预训练模型，以便在有限的数据场景中在新任务上实现更好的性能。然而，目前还不清楚哪种模型在哪种任务上表现最好，而且尝试所有可能的组合是非常昂贵的。如果可转移性估计提供了一个计算效率高的方法来评估模型的泛化能力，以前的作品只集中在分类设置。为了克服这个限制，我们扩展可转移性指标的对象检测。我们设计了一个简单的方法来提取局部特征对应的图像中的每个对象使用ROI-Align。我们还介绍了TLogME，考虑到坐标回归任务的可转移性度量。在我们的实验中，我们将TLogME与Faster-RCNN对象检测器的传输性能估计中的最先进指标进行了比较。我们评估源和目标选择任务的所有指标，真实和合成数据集，并与不同的骨干架构。我们表明，在不同的任务，TLogME使用本地提取方法提供了一个强大的相关性与传输性能，并优于其他可转移性指标的本地和全球层面的功能。

1.4 Delving into Crispness: Guided Label Refinement for Crisp Edge Detection

挖掘清晰度：用于脆片边缘检测的引导式标签细化

论文地址：

https://arxiv.org/abs/2306.15172

在这里插入图片描述
基于学习的边缘检测通常遭受预测厚边缘。通过大量的定量研究与一个新的边缘清晰度的措施，我们发现，嘈杂的人类标记的边缘厚的预测的主要原因。基于这一观察，我们主张更多地关注标签的质量比模型设计，以实现清晰的边缘检测。为此，我们提出了一个有效的Canny指导细化人类标记的边缘，其结果可以用来训练清晰的边缘检测器。本质上，它寻求最佳对准人类标签的过检测Canny边缘的子集。我们表明，现有的几个边缘检测器可以变成一个清晰的边缘检测器，通过训练我们的细化边缘图。实验表明，使用细化边缘训练的深度模型实现了清晰度从17.4%到30.6%的显着性能提升。使用PiDiNet主干，我们的方法在Multicue数据集上分别将ODS和OIS提高了12.2%和12.6%，而不依赖于非最大抑制。我们进一步进行实验，并显示我们的清晰的边缘检测光流估计和图像分割的优越性。

1.5 Efficient and Accurate Scene Text Detection with Low-Rank Approximation Network

基于低阶逼近网络的高效准确场景文本检测

论文地址：

https://arxiv.org/abs/2306.15142

在这里插入图片描述
最近，基于回归的方法，预测参数曲线定位文本，是流行的场景文本检测。然而，这些方法难以平衡简洁的结构和快速的后处理，并且现有的参数曲线对于建模任意形状的文本仍然不理想，导致在平衡速度和准确性方面的挑战。为了解决这些挑战，我们首先提出了一个双重匹配方案的正样本，加快推理速度，通过稀疏匹配方案，并加快模型的收敛，通过密集匹配方案。然后，我们提出了一种新的文本轮廓表示方法的基础上低秩近似利用不同的文本轮廓之间的形状相关性，这是完整的，紧凑，简单和鲁棒性。基于这些设计，我们实现了一个高效，准确的任意形状的文本检测器，命名为LRANet。在三个具有挑战性的数据集上进行了大量的实验，这些数据集证明了我们的LRANet在最先进的方法上的准确性和效率。代码将很快发布。

1.6 Continual Learning for Out-of-Distribution Pedestrian Detection

基于连续学习的散布行人检测算法

论文地址：

https://arxiv.org/abs/2306.15117

在这里插入图片描述
提出了一种连续学习的解决方案，以解决行人检测的分布泛化问题。虽然最近的行人检测模型在各种数据集上取得了令人印象深刻的性能，但它们对推理数据分布的变化仍然很敏感。我们的方法采用弹性权重合并并将其修改为骨干对象检测网络，以便根据模型权重对初始学习任务的重要性来惩罚模型权重的变化。我们表明，当使用一个数据集进行训练并在另一个数据集上进行微调时，我们的解决方案学习新的分布并保持其在前一个数据集上的性能，避免灾难性的遗忘。我们使用两个流行的数据集，CrowdHuman和CityPersons进行跨数据集实验，并显示出比标准微调有相当大的改进，分别在CrowdHuman和CityPersons数据集中有9%和18%的未命中率降低百分比的改进。

二、分类|识别相关(3篇)

2.1 Multi-Dimensional Refinement Graph Convolutional Network with Robust Decouple Loss for Fine-Grained Skeleton-Based Action Recognition

用于细粒度骨架动作识别的具有稳健解耦损失的多维细化图卷积网络

论文地址：

https://arxiv.org/abs/2306.15321

在这里插入图片描述
图卷积网络已被广泛用于基于骨架的动作识别。然而，现有的方法是有限的细粒度的动作识别，由于类间数据的相似性。此外，来自姿态提取的噪声数据增加了细粒度识别的挑战。在这项工作中，我们提出了一个灵活的注意力块称为通道可变时空注意力（CVSTA），以提高空间-时间关节的鉴别力，并获得更紧凑的类内特征分布。基于CVSTA，我们构建了一个多维细化图卷积网络（MDR-GCN），它可以提高通道，联合和帧级特征之间的区分细粒度的行动。此外，我们提出了一个鲁棒去耦损失（RDL），显着提高CVSTA的效果，并减少噪声的影响。所提出的方法结合MDR-GCN与RDL优于已知的国家的最先进的骨架为基础的方法在细粒度的数据集，FineGym 99和FSD-10，也对粗数据集NTU-RGB+D X-view版本。

2.2 Transfer: Cross Modality Knowledge Transfer using Adversarial Networks – A Study on Gesture Recognition

迁移：基于对抗性网络的跨通道知识迁移–手势识别研究

论文地址：

https://arxiv.org/abs/2306.15114

在这里插入图片描述
跨传感技术的知识传递是一个新的概念，最近已经在许多应用领域，包括基于手势的人机交互中进行了探索。主要目的是从源技术收集语义或数据驱动的信息，以分类/识别目标技术中看不见的类的实例。主要的挑战是源和目标技术之间的特征集的维度和分布的显着差异。在本文中，我们提出了转让，一个通用的框架，源和目标技术之间的知识转移。TRANSFER使用手势的基于语言的表示，其捕获在语义上与单词的含义相关的诸如手形、位置和移动的概念的时间组合。通过利用一个预先指定的语法结构和标记器，TRANSFER分割成令牌的手势，并使用令牌识别器识别各个组件。在这种基于语言的识别系统中的标记器将低级别的特定于技术的特征抽象到机器接口，使得能够设计一个鉴别器，该鉴别器学习源和目标技术中识别手势所必需的技术不变特征。我们演示了TRANSFER在三种不同场景中的使用：a）通过从视频学习姿势模型并使用WiFi识别姿势来跨技术传递知识，b）将知识从视频传递到加速度计，以及d）将知识从加速度计传递到WiFi信号。

2.3 Spectral Analysis of Marine Debris in Simulated and Observed Sentinel-2/MSI Images using Unsupervised Classification

基于非监督分类的Sentinel-2/MSI卫星卫星图像海洋垃圾光谱分析

论文地址：

https://arxiv.org/abs/2306.15008

在这里插入图片描述
海洋垃圾对海洋和沿海环境构成重大威胁，其影响日益严重。遥感由于其覆盖面广和经常观测的能力，为当地清理作业和拖网调查等传统的减缓技术提供了有利的补充。在这项研究中，我们使用了辐射传输模型（RTM）模拟数据和来自Sentinel-2任务的多光谱仪器（MSI）的数据，并结合机器学习算法。我们的目的是研究海洋塑料污染的光谱行为，并评估RTMs在该研究领域的适用性。从探索性分析和无监督分类使用KMeans算法的结果表明，污染物的光谱行为的影响因素，如聚合物的类型和像素覆盖百分比。研究结果还揭示了光谱特征和元素之间的关联和分化的趋势。所应用的方法在很大程度上依赖于数据，如果在新的、更多样化和更详细的数据集中重新应用，它可能会产生更好的结果。这些见解可以指导未来遥感应用于检测海洋塑料污染的研究。

三、分割|语义相关(11篇)

3.1 Symphonize 3D Semantic Scene Completion with Contextual Instance Queries

利用上下文实例查询交响化3D语义场景完成

论文地址：

https://arxiv.org/abs/2306.15670

在这里插入图片描述
3D语义场景完成（SSC）已经成为自动驾驶的一项新兴和关键的任务，因为它涉及从部分LiDAR或图像输入预测3D场景内的每体素占用。现有的方法主要集中在体素方式的特征聚合，而忽略了以实例为中心的语义和更广泛的上下文。在本文中，我们提出了一种新的范式，称为交响乐（场景从Insts）SSC，完成场景体积从一个稀疏的实例查询集来自输入与上下文感知。通过将查询作为场景内的实例特征表示，Symphonies动态地编码以实例为中心的语义，以与图像和体积特征进行交互，同时避免密集的体素建模。同时，它通过在整个场景中捕获上下文来协调对场景的更全面的理解，有助于减轻来自遮挡和透视错误的几何模糊性。Symphonies在具有挑战性的SemanticKITTI数据集上实现了13.02 mIoU的最新结果，优于现有方法，并展示了范式的有前途的进步。代码可以在https://github.com/hustvl/Symphonies上找到。

3.2 What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation

乱七八糟：零度语义切分的多领域评价

论文地址：

https://arxiv.org/abs/2306.15521

在这里插入图片描述

虽然语义分割在过去已经有了巨大的改进，但仍然需要大量的标记工作，并且存在对训练期间不存在的类的有限泛化的问题。为了解决这个问题，zero-shot语义分割利用大型自监督视觉语言模型，允许零镜头转移到看不见的类。在这项工作中，我们建立了一个多域语义分割评估（MESS）的基准，它允许在广泛的领域特定的数据集，如医学，工程，地球监测，生物学和农业的性能进行全面分析。为此，我们回顾了120个数据集，开发了一个分类法，并根据开发的分类法对数据集进行分类。我们选择了一个有代表性的子集组成的22个数据集，并提出它作为MESS基准。我们评估了8个最近发表的模型建议MESS基准和zero-shot传输模型的性能分析特征。该工具包可在www.example.com上获得https://github.com/blumenstiel/MESS。

3.3 Meshes Meet Voxels: Abdominal Organ Segmentation via Diffeomorphic Deformations

网格与体素相遇：基于微分变形的腹部器官分割

论文地址：

https://arxiv.org/abs/2306.15515

在这里插入图片描述
来自CT和MRI的腹部多器官分割是手术规划和计算机辅助导航系统的必要先决条件。腹部形状的三维数字表示对于其定量和统计分析是进一步重要的。然而，该领域中的现有方法无法提取平滑的、拓扑正确的并且匹配模板上的点的高度准确的3D表示。在这项工作中，我们提出了UNetFlow，一种新的微分同胚形状变形的腹部器官的方法。UNetFlow结合了基于体素和基于网格的3D形状提取方法的优点。我们的研究结果表明，相对于手动标注的CT数据和更好的拓扑正确性相比，以前的方法具有较高的准确性。此外，我们展示了UNetFlow的MRI的泛化。

3.4 No-Service Rail Surface Defect Segmentation via Normalized Attention and Dual-scale Interaction

基于归一化关注度和双尺度交互的非服役钢轨表面缺陷分割

论文地址：

https://arxiv.org/abs/2306.15442

在这里插入图片描述
钢轨表面缺陷分割是检测钢轨质量的重要手段。然而，由于复杂多样的轮廓和低对比度的纹理的非服务轨道，现有的自然图像分割方法不能实现有前途的性能在NRSD图像，特别是在一些独特的和具有挑战性的NRSD场景。为此，在本文中，我们提出了一种新的分割网络NRSDs的基础上归一化注意力和双尺度的相互作用，命名为NaDiNet。具体而言，NaDiNet遵循增强-相互作用范式。归一化通道自注意模块（NAM）和双尺度交互块（DIB）是NaDiNet的两个关键组件。NAM是通道式自注意机制（CAM）的特定扩展，以增强从低对比度NRSD图像中提取的特征。CAM中的softmax层将产生非常小的相关系数，这不利于低对比度特征增强。相反，在NAM中，我们直接计算通道之间的归一化相关系数以扩大特征差异。DIB是专门为增强功能的功能交互而设计的。它有两个双尺度的交互分支，一个用于细粒度线索，另一个用于粗粒度线索。在两个分支一起工作的情况下，DIB可以感知不同粒度的缺陷区域。通过这些模块的协同工作，我们的NaDiNet可以生成准确的分割图。在具有人造和天然NRSD的公共NRSD-MN数据集上的广泛实验表明，我们提出的具有各种骨架（即，VGG、ResNet和DenseNet）的性能始终优于10种最先进的方法。我们的方法的代码和结果可在www.example.com获得。

3.5 TrickVOS: A Bag of Tricks for Video Object Segmentation

TrickVOS：一种视频对象分割的策略

论文地址：

https://arxiv.org/abs/2306.15377

在这里插入图片描述
空时记忆（STM）网络方法在半监督视频对象分割（SVOS）中具有显著的性能优势。在这项工作中，我们确定了三个关键方面，我们可以改善这种方法; i）监控信号，ii）预训练和iii）空间意识。然后我们提出TrickVOS;一个通用的，方法不可知的技巧包解决每个方面与i）结构感知的混合损失，ii）一个简单的解码器预训练制度和iii）一个廉价的跟踪器，在模型预测中施加空间约束。最后，我们提出了一个轻量级的网络，并表明当使用TrickVOS进行训练时，它在DAVIS和YouTube基准测试中取得了与最先进的方法相竞争的结果，同时也是第一个可以在移动终端上实时运行的基于STM的SVOS方法之一。

3.6 SSC-RS: Elevate LiDAR Semantic Scene Completion with Representation Separation and BEV Fusion

SSC-RS：通过表示分离和BEV融合提升LiDAR语义场景完成

https://arxiv.org/abs/2306.15349

在这里插入图片描述
语义场景补全（SSC）联合预测整个3D场景的语义和几何，在自动驾驶系统的3D场景理解中起着至关重要的作用。在语义语境的帮助下，语块切分取得了长足的进步。然而，如何有效地利用语义分割中的语义上下文和场景完成中的几何结构之间的关系仍有待探索。在本文中，我们提出解决室外SSC的表示分离和BEV融合的角度。具体来说，我们提出了一个名为SSC-RS的网络，它使用具有深度监督的单独分支来明确地解开语义和几何表示的学习过程。提出了一种基于自适应表示融合（ARF）模块的BEV融合网络，实现了多尺度特征的有效融合。由于计算量小，表达能力强，该模型在实时运行时具有良好的通用性。SemanticKITTI上的大量实验表明，我们的SSC-RS达到了最先进的性能。

3.7 PANet: LiDAR Panoptic Segmentation with Sparse Instance Proposal and Aggregation

PANET：基于稀疏实例建议和聚合的激光雷达全景分割

论文地址：

https://arxiv.org/abs/2306.15348

在这里插入图片描述
可靠的LiDAR全景分割（LPS），包括语义和实例分割，对于许多机器人应用（如自动驾驶）至关重要。这项工作提出了一个新的LPS框架命名PANet，以消除对偏移分支的依赖性，并提高性能的大型对象，这总是过度分割的聚类算法。首先，我们提出了一个非学习的稀疏实例建议（SIP）模块与“采样-移位-分组”计划，直接组的东西点成实例从原始点云有效。更具体地，引入平衡点采样以生成在距离范围上具有更均匀的点分布的稀疏种子点。提出了一种移动模块，称为气泡移动，以缩小种子点的聚类中心。然后，我们利用连接组件标签算法生成实例建议。此外，实例聚合模块被设计为整合潜在的碎片化实例，提高了SIP模块在大型对象上的性能。大量的实验表明，PANet实现了最先进的性能之间的SemanticKITII验证和nuScenes验证的panoptic分割任务的已发表的作品。

3.8 Hierarchical Dense Correlation Distillation for Few-Shot Segmentation-Extended Abstract

基于分层稠密相关精馏的Few-Shot分割-扩展摘要

论文地址：

https://arxiv.org/abs/2306.15278

在这里插入图片描述
Few-Shot语义分割（FSS）的目的是形成类不可知模型分割看不见的类，只有少数的注释。以前的方法局限于语义特征和原型表示，受到粗分割粒度和训练集过拟合。在这项工作中，我们设计了分层解耦匹配网络（HDMNet）挖掘像素级支持相关的Transformer架构的基础上。自注意模块用于辅助建立层次密集特征，作为完成查询和支持特征之间的级联匹配的手段。此外，我们提出了一个匹配模块，以减少训练集过拟合，并引入相关蒸馏利用语义对应从粗分辨率，以提高细粒度分割。我们的方法在实验中表现得很好。我们在COCO数据集上实现了50.0%的mIoU，在五次分割上分别实现了56.0%。该代码将在项目网站上提供。我们希望我们的工作可以有益于更广泛的工业应用，其中需要体面地识别具有有限注释的新类。

3.9 Semantic Segmentation Using Super Resolution Technique as Pre-Processing

基于超分辨率技术的语义分割

论文地址：

https://arxiv.org/abs/2306.15218

在这里插入图片描述
结合高级和低级视觉任务是计算机视觉领域中的常见技术。本文将图像超分辨率技术与语义分割技术相结合，对文档图像进行二值化处理。实验结果表明，采用图像超分辨率作为预处理步骤，可以有效地提高语义分割的效果和性能。

3.10 FBA-Net: Foreground and Background Aware Contrastive Learning for Semi-Supervised Atrium Segmentation

FBA-Net：用于半监督中庭分割的前景和背景感知对比学习

论文地址：

https://arxiv.org/abs/2306.15189

在这里插入图片描述
钆增强磁共振成像（GE MRI）的医学图像分割是临床应用中的一项重要任务。然而，手动注释是耗时的并且需要专门的专业知识。利用标记和未标记数据的半监督分割方法已经显示出希望，对比学习成为一种特别有效的方法。在本文中，我们提出了一个对比学习策略的前景和背景表示的半监督三维医学图像分割（FBA-Net）。具体来说，我们利用对比度损失来学习图像中前景和背景区域的表示。通过训练网络来区分前景-背景对，我们的目标是学习一种可以有效捕获感兴趣的解剖结构的表示。在三个医学分割数据集上的实验证明了最先进的性能。值得注意的是，我们的方法仅使用20%的标记数据就实现了91.31%的Dice得分，这非常接近于在左心房数据集上使用100%标记数据的完全监督方法的91.62%得分。我们的框架有可能推进半监督3D医学图像分割领域，并能够更有效，更准确地分析具有有限数量的注释标签的医学图像。

3.11 Nano1D: An accurate Computer Vision model for segmentation and analysis of low-dimensional objects

Nano1D：一种用于低维目标分割和分析的精确计算机视觉模型

论文地址：

https://arxiv.org/abs/2306.15319

在这里插入图片描述
显微镜图像通常被定性地或手动地分析，并且存在对对象的自主定量分析的需要。在本文中，我们提出了一个基于物理的计算模型，从显微镜图像的一维不规则和可变形物体的准确分割和几何分析。该模型分为预处理、分割、分离重叠对象和几何测量四个步骤。该模型在银纳米线上进行了测试，并成功地分割和分析其几何特性，包括长度，宽度和分布。该算法的功能不受图像中对象的大小、数量、密度、方向和重叠的影响。该模型的主要优势是能够成功分割和分析重叠对象，准确率超过99%，而当前的机器学习和计算模型存在不准确性，无法分割重叠对象。Nano1D可以分析一维（1D）纳米颗粒，包括纳米线、纳米管、纳米棒以及微结构的其他1D特征，如微裂纹、位错等。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（6月 28 日论文合集）

文章目录

一、检测相关(6篇)

1.1 Detector-Free Structure from Motion

1.2 Irregular Change Detection in Sparse Bi-Temporal Point Clouds using Learned Place Recognition Descriptors and Point-to-Voxel Comparison

1.3 Transferability Metrics for Object Detection

1.4 Delving into Crispness: Guided Label Refinement for Crisp Edge Detection

1.5 Efficient and Accurate Scene Text Detection with Low-Rank Approximation Network

1.6 Continual Learning for Out-of-Distribution Pedestrian Detection

二、分类|识别相关(3篇)

2.1 Multi-Dimensional Refinement Graph Convolutional Network with Robust Decouple Loss for Fine-Grained Skeleton-Based Action Recognition

2.2 Transfer: Cross Modality Knowledge Transfer using Adversarial Networks – A Study on Gesture Recognition

2.3 Spectral Analysis of Marine Debris in Simulated and Observed Sentinel-2/MSI Images using Unsupervised Classification

三、分割|语义相关(11篇)

3.1 Symphonize 3D Semantic Scene Completion with Contextual Instance Queries

3.2 What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation

3.3 Meshes Meet Voxels: Abdominal Organ Segmentation via Diffeomorphic Deformations

3.4 No-Service Rail Surface Defect Segmentation via Normalized Attention and Dual-scale Interaction

3.5 TrickVOS: A Bag of Tricks for Video Object Segmentation

3.6 SSC-RS: Elevate LiDAR Semantic Scene Completion with Representation Separation and BEV Fusion

3.7 PANet: LiDAR Panoptic Segmentation with Sparse Instance Proposal and Aggregation

3.8 Hierarchical Dense Correlation Distillation for Few-Shot Segmentation-Extended Abstract

3.9 Semantic Segmentation Using Super Resolution Technique as Pre-Processing

3.10 FBA-Net: Foreground and Background Aware Contrastive Learning for Semi-Supervised Atrium Segmentation

3.11 Nano1D: An accurate Computer Vision model for segmentation and analysis of low-dimensional objects

猜你喜欢