【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（12 月 4 日论文合集）

文章目录

一、分类|识别相关(11篇)

一、分类|识别相关(11篇)

1.1 Rethinking the Domain Gap in Near-infrared Face Recognition

近红外人脸识别领域鸿沟的再思考

https://arxiv.org/abs/2312.00627

异构人脸识别（HFR）涉及在可见光（VIS）和近红外（NIR）的视觉域中匹配人脸图像的复杂任务。虽然现有的文献HFR的领域差距确定为一个主要的挑战，并指示努力弥合它在输入或功能级别，我们的工作偏离了这一趋势。我们观察到，与较小的神经网络不同，当在大规模同质VIS数据上进行预训练时，大型神经网络在HFR中表现出异常的zero-shot性能，这表明域间隙可能不像以前认为的那么明显。通过将HFR问题视为低数据微调问题之一，我们引入了一个简单的框架：全面的预训练，然后是正则化的微调策略，该策略在四个公开的基准测试中匹配或超越了当前的最先进水平。相应的代码可以在https://github.com/michaeltrs/RethinkNIRVIS上找到。

1.2 BCN: Batch Channel Normalization for Image Classification

BCN：用于图像分类的批量通道归一化

https://arxiv.org/abs/2312.00596

归一化技术由于其能够实现更高的学习率并且在初始化时不太谨慎，因此已被广泛用于深度学习领域。然而，流行的规范化技术的有效性通常限于特定领域。与标准的批量归一化（BN）和层归一化（LN）不同，其中BN计算沿（N，H，W）维的均值和方差，LN计算沿（C，H，W）维的均值和方差（N，C，H和W分别是批次，通道，空间高度和宽度维度），本文提出了一种新的归一化技术，称为批量通道归一化（BCN）。为了利用通道和批次依赖性，并基于特定数据集或任务自适应地结合BN和LN的优点，BCN分别沿（N，H，W）和（C，H，W）轴归一化输入，然后基于自适应参数组合归一化输出。作为一个基本模块，BCN可以很容易地集成到现有的模型中，用于计算机视觉领域的各种应用。实验结果表明，所提出的技术可以无缝地应用于各种版本的CNN或Vision Transformer架构。该代码可在https://github.com/AfifaKhaled/BatchChannel-Normalization上公开获取

1.3 Study and Survey on Gesture Recognition Systems

手势识别系统的研究与综述

https://arxiv.org/abs/2312.00392

近年来，由于计算机视觉技术的进步，手势识别领域有了大量的研究。在这一领域，各种新的应用已经被概念化和开发。本文讨论了手势识别系统在游戏、医疗保健、家用电器、工业机器人和虚拟现实等多个领域的实现。不同的方法来捕捉手势进行了比较和对比，在整个调查。讨论了各种数据源和数据采集技术。手势在手语中的作用已被研究，现有的方法进行了审查。在构建手势识别系统时所面临的共同挑战也进行了探讨。

1.4 Benchmarking Multi-Domain Active Learning on Image Classification

基于图像分类的多域主动学习基准研究

https://arxiv.org/abs/2312.00364

主动学习旨在通过策略性地标记信息数据点来增强模型性能。虽然被广泛研究，但其在大规模真实世界数据集上的有效性仍然未得到充分探索。现有的研究主要集中在单源数据上，忽略了现实世界数据的多领域特性。我们引入了一个多领域的主动学习基准来弥合这一差距。我们的基准测试表明，传统的单域主动学习策略在多域场景中往往不如随机选择有效。我们还介绍了CLIP-GeoYFCC，一种新的大规模图像数据集建立在地理领域，与现有的基于流派的域数据集。对我们的基准测试的分析表明，所有多域策略都表现出显着的权衡，没有策略在所有数据集或所有指标上都表现出色，强调了未来研究的必要性。

1.5 Manipulating the Label Space for In-Context Classification

操纵标签空间进行上下文中的分类

https://arxiv.org/abs/2312.00351

在通过以先前单词为条件生成下一个单词进行预训练之后，语言模型（LM）获得了上下文学习（ICL）的能力，该能力可以根据给定上下文示例（ICE）的上下文来学习新任务。类似地，视觉条件语言建模也用于训练具有ICL能力的视觉语言模型（VLM）。然而，与CLIP等基于对比学习的模型相比，这种VLM通常表现出较弱的分类能力，因为语言建模目标并不直接对比对象是否与文本配对。为了提高分类的ICL，使用更多的ICE来提供更多的知识是一个简单的方法。然而，这可能会大大增加选择时间，更重要的是，包括额外的上下文图像往往会延长上下文序列的长度，超出VLM的处理能力。为了减轻这些限制，我们建议操纵每个ICE的标签空间，以增加其知识密度，允许更少的ICE传达尽可能多的信息，因为一个更大的集合。具体来说，我们提出了两种策略，即标签分布增强和视觉描述增强，以提高不同数据集上的上下文分类性能，包括经典的ImageNet和更细粒度的数据集，如CUB-200。具体来说，在ImageNet上使用我们的方法，我们将准确率从4次拍摄设置中的74.70%提高到76.21%，只需2次拍摄。超过CLIP 0.6 7%。在CUB-200上，该方法将单炮精度从48.86%提高到69.05%，比CLIP提高了12.15%.代码在https://anonymous.4open.science/r/MLS_ICC中给出。

1.6 Student Activity Recognition in Classroom Environments using Transfer Learning

使用迁移学习的课堂环境中的学生活动识别

https://arxiv.org/abs/2312.00348

人工智能和深度学习的最新进展促进了各种应用的自动化，包括家庭自动化，智能监控系统和医疗保健等。人类活动识别是其新兴应用之一，可以在教室环境中实施，以提高安全性，效率和整体教育质量。本文提出了一种系统，用于检测和识别学生在课堂环境中的活动。数据集由作者构建和记录，因为在本研究时，该任务的标准数据集不可用。迁移学习是深度学习领域广泛采用的一种方法，已被证明对图像和视频处理等复杂任务很有帮助。包括VGG-16、ResNet-50、InceptionV 3和Xception在内的预训练模型用于特征提取和分类任务。Xception在新的课堂数据集上实现了93%的准确率，优于其他三个模型。本研究提出的系统旨在为学生和教育工作者提供一个更安全、更高效的学习环境。

1.7 A knowledge-based data-driven (KBDD) framework for all-day identification of cloud types using satellite remote sensing

利用卫星遥感全天识别云类型的基于知识的数据驱动(KBDD)框架

https://arxiv.org/abs/2312.00308

云类型作为一种气象数据，对于评估降雨、热浪、水资源、洪水和干旱、粮食安全和植被覆盖以及土地使用的变化具有特别重要的意义。为了有效地利用高分辨率的地球同步观测，基于知识的数据驱动（KBDD）的框架，全天识别云类型的基础上光谱信息从Himawari-8/9卫星传感器的设计。提出了一种新颖、简单、高效的网络CldNet。与广泛使用的语义分割网络（包括SegNet，PSPNet，DeepLabV 3+，UNet和ResUnet）相比，我们提出的CldNet模型在识别云类型方面的准确率为80.89±2.18%，分别提高了32%，46%，22%，2%和39%。在辅助信息（例如，卫星天顶/方位角、太阳天顶/方位角），使用可见光和近红外波段的CldNet-W和不使用可见光和近红外波段的CldNet-O在测试数据集上的准确率分别为82.23 ± 2.14%和73.21 ± 2.02%。同时，CldNet的总参数仅为0.46M，便于边缘部署。更重要的是，训练后的CldNet在没有任何微调的情况下，可以利用空间分辨率为0.02{\deg}*0.02{\deg}的卫星光谱数据，以更高的空间分辨率预测云类型，这表明CldNet具有很强的泛化能力。总体而言，使用CldNet的KBDD框架是一个高效的云类型识别系统，能够为许多气候评估领域提供高保真，全天，时空云类型数据库。

1.8 Developmental Pretraining (DPT) for Image Classification Networks

图像分类网络的发展性预训练（DPT）

https://arxiv.org/abs/2312.00304

在深度神经网络对对象识别的数据需求日益增加的背景下，我们提出了发展性预训练（DPT）作为一种可能的解决方案。DPT被设计为一种基于数据库的预训练方法，旨在与传统的数据饥渴的预训练技术相媲美。这些训练方法还引入了不必要的特征，当网络用于下游分类任务时，这些特征可能会产生误导，其中数据与预训练数据有很大的不同并且很稀缺。我们从人类婴儿视觉发展的启示中设计了DPT的课程。DPT采用了一种分阶段的方法，在这种方法中，精心选择的原始和通用特征（如边缘和形状）被教授给参与我们预训练制度的网络。一个模型，经历了DPT制度进行了测试，对模型的随机权重，以评估DPT的可行性。

1.9 Galaxy Classification: A machine learning approach for classifying shapes using numerical data

银河分类：一种利用数值数据对形状进行分类的机器学习方法

https://arxiv.org/abs/2312.00184

将星系分类为螺旋星系或椭圆星系是理解它们形成和演化的关键任务。随着大规模天文测量的到来，如斯隆数字巡天（SDSS），天文学家现在可以获得大量星系的图像。然而，由于要分析的星系数量庞大，这些图像的视觉检查对人类来说是一项不可能的任务。为了解决这个问题，创建了银河动物园项目，让数千名公民科学家根据星系的视觉特征对其进行分类。在本文中，我们提出了一个机器学习模型，用于使用来自Galaxy Zoo项目的数值数据进行星系分类[5]。我们的模型利用卷积神经网络架构从星系图像中提取特征，并将其分类为螺旋或椭圆。我们通过使用Galaxy Zoo数据集的子集与人类分类器的性能进行比较，证明了我们模型的有效性。我们的研究结果表明，我们的模型在分类星系方面达到了很高的精度，并有可能显着提高我们对星系形成和演化的理解。

1.10 OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

OST：用于通用视频识别的最优时空描述子提炼文本知识

https://arxiv.org/abs/2312.00096

由于在庞大的视频数据上训练视觉语言模型的资源密集型性质，大多数研究都集中在使预训练的图像语言模型适应视频领域。主导管道建议解决视觉差异与额外的时间学习者，而忽略了网络规模的描述性叙述和简洁的动作类别名称的实质性差异，导致不太明显的语义空间和潜在的性能限制。在这项工作中，我们优先考虑文本知识的细化，以促进可推广的视频识别。为了解决类别名称的语义空间不太明显的局限性，我们提示一个大型语言模型（LLM），以增加动作类名称到时空描述符，从而弥合文本差异，并作为一般识别的知识库。此外，分配最好的描述符与不同的视频实例，我们提出了最佳描述符求解器，形成视频识别问题，解决跨帧级表示和描述符的最佳匹配流。在zero-shot、Few-Shot和完全监督视频识别中的综合评估突出了我们方法的有效性。我们最好的模型在Kinetics-600上实现了最先进的zero-shot精度75.1%。

1.11 Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable Image Classification

高斯分布原型与生成模型混合的可解释图像分类

https://arxiv.org/abs/2312.00092

原型部件可解释方法，例如，ProtoPNet通过将分类预测连接到特定于类的训练原型来增强可解释性，从而提供对其决策的直观见解。当前的方法依赖于用基于点的学习技术训练的判别分类器，该技术为原型提供特定值。由于其稀疏性和潜在的冗余性，这些原型具有相对较低的表示能力，每个原型都不包含可变性度量。在本文中，我们提出了一个新的生成学习的原型分布，命名为高斯分布的原型混合（MGProto），这是由高斯混合模型（GMM）表示。这种方法能够学习更强大的原型表示，因为每个学习的原型将拥有一个可变性的度量，这自然会降低每个原型周围分布的稀疏性，并且我们还将原型多样性目标函数集成到GMM优化中以减少冗余。顺便说一句，MGProto的生成特性为检测分布外样本提供了一种新的有效方法。为了提高MGProto的紧凑性，我们进一步提出了修剪高斯分布的原型与低先验。在CUB-200-2011、Stanford Cars、Stanford Dogs和Oxford-IIIT Pets数据集上的实验表明，MGProto实现了最先进的分类和OoD检测性能，并获得了令人鼓舞的可解释性结果。