【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（12 月 5 日论文合集）（上）

文章目录

一、分类|识别相关(14篇)

一、分类|识别相关(14篇)

1.1 Object Recognition as Next Token Prediction

作为下一代币预测的对象识别

https://arxiv.org/abs/2312.02142

我们提出了一种方法，姿势物体识别作为下一个令牌预测。这个想法是应用一个语言解码器，它可以自动回归地预测来自图像嵌入的文本标记，以形成标签。为了在自回归中建立这个预测过程，我们为解码器定制了一个非因果注意力掩码，其中包含两个关键特征：将来自不同标签的标记建模为独立的，并将图像标记视为前缀。这种掩蔽机制激发了一种有效的方法-单次采样-同时并行地对多个标签的标记进行采样，并在推理过程中通过它们的概率对生成的标签进行排名。为了进一步提高效率，我们提出了一种简单的策略，通过简单地丢弃预训练语言模型的中间块来构建紧凑的解码器。这种方法产生了一个解码器，匹配完整模型的性能，同时显着更有效。代码可在https://github.com/kaiyuyue/nxtp上获得

1.2 Effective Adapter for Face Recognition in the Wild

一种有效的野外人脸识别适配器

https://arxiv.org/abs/2312.01734

在本文中，我们解决了野外人脸识别的挑战，在野外，图像往往受到低质量和真实世界的扭曲。传统的启发式方法，无论是训练模型直接对这些退化的图像或其增强对应使用人脸恢复技术已被证明是无效的，主要是由于面部特征的退化和图像域的差异。为了克服这些问题，我们提出了一种有效的适配器，用于增强在高质量面部数据集上训练的现有面部识别模型。我们的适配器的关键是通过两个类似的结构来处理未细化和增强的图像，其中一个是固定的，另一个是可训练的。这种设计可以带来两个好处。首先，双输入系统最小化域间隙，同时为人脸识别模型提供不同的视角，其中增强图像可以被恢复模型视为原始图像的复杂非线性变换。第二，两个相似的结构都可以由预训练的模型初始化，而不会丢失过去的知识。在zero-shot设置中的大量实验表明，我们的方法在三个数据集上超过了约3%，4%和7%的基线。我们的代码将在https://github.com/liuyunhaozz/FaceAdapter/上公开。

1.3 RiskBench: A Scenario-based Benchmark for Risk Identification

RiskBtch：一种基于情景的风险识别基准

https://arxiv.org/abs/2312.01659

智能驾驶系统旨在实现零碰撞的移动体验，需要跨学科的努力来提高安全性能。这项工作的重点是风险识别，识别和分析来自动态交通参与者和突发事件的风险的过程。虽然社区已经取得了重大进展，但目前对不同风险识别算法的评估使用独立的数据集，导致难以直接比较，并阻碍了安全性能增强的集体进展。为了解决这一限制，我们引入了\textbf{RiskBench}，这是一个用于风险识别的大规模基于ARIO的基准。我们设计了一个场景分类和增强管道，以系统地收集不同场景下的地面真实风险。我们评估了十种算法的能力，以（1）检测和定位风险，（2）预测风险，（3）促进决策。我们进行了广泛的实验，并总结了未来的研究风险识别。我们的目标是鼓励合作努力，实现零碰撞的社会。我们已经在项目页面上公开了我们的数据集和基准工具包：https://hcis-lab.github.io/RiskBench/

1.4 TextAug: Test time Text Augmentation for Multimodal Person Re-identification

TextAug：用于多通道人员重新识别的测试时间文本增强

https://arxiv.org/abs/2312.01605

多模态人员重新识别在研究界越来越受欢迎，因为它的有效性相比，对应部分的单峰框架。然而，多模态深度学习的瓶颈是需要大量的多模态训练示例。数据增强技术，如裁剪，翻转，旋转等，通常用于图像领域，以提高深度学习模型的泛化能力。以图像以外的其他形式（例如文本）进行增强具有挑战性，并且需要大量的计算资源和外部数据源。在这项研究中，我们研究了两种计算机视觉数据增强技术的有效性：剪切和剪切混合，用于多模态人重新识别中的文本增强。我们的方法将这两种增强策略合并为一种称为CutMixOut的策略，该策略涉及从句子中随机删除单词或子短语（Cutout），并混合两个或更多句子的部分以创建不同的示例（CutMix），每个操作都分配有一定的概率。这种增强是在推理时实现的，没有任何事先的训练。我们的研究结果表明，所提出的技术是简单而有效的，在提高性能的多模态的人重新识别基准。

1.5 D $^2$ ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition

D $^2$ ST-Adapter：用于Few-Shot动作识别的解缠可变形时空适配器

扫描二维码关注公众号，回复： 17137999 查看本文章

https://arxiv.org/abs/2312.01431

将大的预训练图像模型适应于Few-Shot动作识别已被证明是学习鲁棒特征提取器的有效和高效的策略，这对于Few-Shot学习是必不可少的。典型的基于微调的自适应范例在Few-Shot学习场景中容易出现过拟合，并且为学习视频数据中的时间特征提供了很少的建模灵活性。在这项工作中，我们提出了解开和变形时空适配器（D $^2$ ST适配器），一种新的适配器调整框架的Few-Shot动作识别，这是设计在一个双通道架构编码的空间和时间的功能在一个解开的方式。此外，我们设计了变形时空注意力模块作为D $^2$ ST适配器的核心组件，它可以被定制为在相应的路径中对空间和时间特征进行建模，使我们的D $^2$ ST适配器能够在3D时空空间中以全局视图编码特征，同时保持轻量级设计。在预训练的ResNet和ViT上对我们的方法进行了大量的实例化实验，证明了我们的方法在Few-Shot动作识别方面优于最先进的方法。我们的方法特别适合于具有挑战性的场景，其中时间动态对于动作识别至关重要。

1.6 DiFace: Cross-Modal Face Recognition through Controlled Diffusion

DiFace：通过受控扩散的跨模态人脸识别

https://arxiv.org/abs/2312.01367

扩散概率模型（DPM）在生成具有出色质量和真实感的视觉媒体方面表现出了卓越的能力。尽管如此，它们在非生成领域（如人脸识别）的潜力还有待深入研究。同时，尽管多模态人脸识别方法得到了广泛的发展，但它们的重点主要集中在视觉模态上。在这种背景下，通过文本描述的人脸识别提出了一个独特的和有前途的解决方案，不仅超越了应用场景的限制，但也扩大了跨模态人脸识别领域的研究潜力。令人遗憾的是，这一途径尚未得到探索和充分利用，这主要是由于以下三个方面的挑战：1）文字描述的内在不精确性; 2）文本和图像之间的巨大差距; 3）数据库不足带来的巨大障碍。为了解决这个问题，我们提出了DiFace，一种解决方案，通过可控扩散过程，通过建立其与概率传输的理论联系，有效地实现了通过文本进行人脸识别。我们的方法不仅在更广泛的任务中释放了DPM的潜力，而且据我们所知，还首次实现了文本到图像人脸识别的显著准确性，正如我们在验证和识别方面的实验所证明的那样。

1.7 Facial Emotion Recognition Under Mask Coverage Using a Data Augmentation Technique

基于数据增强技术的面具覆盖下的人脸情绪识别

https://arxiv.org/abs/2312.01335

当个人戴上口罩时，使用基于人工智能的计算机视觉系统识别人类情绪，在当前的新冠肺炎大流行中提出了一个新的挑战。在这项研究中，我们提出了一个面部情绪识别系统，能够识别情绪从个人戴着不同的面具。一种新的数据增强技术被用来提高我们的模型的性能，使用四个面具类型为每个人脸图像。我们评估了使用迁移学习训练的四个卷积神经网络Alexnet、Squeezenet、Resnet50和VGGFace2的有效性。实验结果表明，我们的模型有效地工作在多掩模模式相比，单掩模模式。VGGFace2网络实现了最高的准确率，使用JAFFE数据集，依赖于人的模式为97.82%，独立于人的模式为74.21%。然而，我们使用UIBVFED数据集评估了我们提出的模型。Resnet50表现出卓越的性能，在人员依赖模式下的准确率为73.68%，在人员独立模式下的准确率为59.57%。此外，我们采用了精确度，灵敏度，特异性，AUC，F1评分和混淆矩阵等指标来详细衡量我们的系统的效率。此外，使用LIME算法来可视化CNN的决策策略。