腾讯优图荣获CVPR 2023视觉异常检测挑战赛冠军!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

转载自:腾讯优图实验室

近日,腾讯优图实验室在CVPR 2023(IEEE国际计算机视觉与模式识别会议)中斩获了视觉异常检测(Visual Anomaly and Novelty Detection,VAND)挑战赛的冠军,这一荣誉标志着腾讯优图在工业人工智能领域的技术实力和创新能力得到了权威机构的认可。

无监督图像异常检测是计算机视觉领域的重要研究方向,其目标是通过仅使用正常图像进行模型训练,在测试时能够准确地区分正常和异常图像。在工业外观质检、产品零件安装检测和智能安全视频等领域,无监督异常检测技术具有巨大的研究意义和应用价值。工业领域对于视觉异常检测的需求日益增长。在工业生产过程中,异常情况可能导致质量问题、安全隐患甚至设备故障。传统的异常检测方法往往需要人工参与,效率低下且易受主观因素影响。而基于人工智能的视觉异常检测技术能够通过高效的自动化方式,快速识别和定位异常情况,从而提高生产效率和产品质量。

 技术解析

腾讯优图实验室与浙江大学合作,在Zero-shot异常检测赛道中提出了创新的解决方案。通过结合文本提示和图像特征对比的方法,该方案在测试集上取得了优异的成绩,综合F1-max指标达到0.4589,超越了其他参赛队伍。这意味着提出的模型能够在未见过异常样本的情况下,准确地识别和分割异常图像。以下可分为三点:

异常分类

基于WinCLIP[1]异常分类框架,我们提出了一种文本提示集成策略,在不使用复杂的多尺度窗口策略的基础上显著提升了Baseline的异常分类精度。具体地,该集成策略包含template-level和state-level两部分:

01

对于前者,我们从CLIP Surgery[2]中选定的85个模板提示中删掉了一些不适合AD任务的模板,如“a photo of the weird [obj.]”,最终筛选35个模板提示。

02

对于后者,我们采用通用文本来描述正常/异常对象,如“flawless,damaged”等,而没有提供过于详细的描述以保证方法的普适性,如“chip around edge and corner”。最终使用7个正常提示和5个异常提示。

模板和状态提示与样本类别名称结合后,使用CLIP文本编码器提取文本特征,并对正常和异常特征分别求平均值。最终,将正常与异常特征各自的平均值与图像特征进行对比,经过softmax后得到异常类别概率作为分类得分,见下图中蓝色Zero-shot Anomaly Score流程。

eac217b166796e8e6afa10a37c0e7ea5.png

自研Zero-shot/Few-shot异常检测统一框架

异常分割

类比图像级别的异常分类方法到异常分割,一个自然而然的想法是将Backbone提取到的不同层级特征与文本特征进行相似度度量。然而,CLIP模型是基于分类的方案进行设计的,即除了用于分类的抽象图像特征外,没有将其它图像特征映射到统一的图像/文本空间。因此我们提出了一个简单但有效的方案来解决这个问题:使用额外的线性层将不同层级的图像特征映射到图像/文本联合嵌入空间中,见上图中蓝色Zero-shot Anomaly Map流程。具体地,不同层级的特征分别经由一个线性层进行联合嵌入特征空间变换,将得到的变换后的特征与文本特征进行对比,得到不同层级的异常图。

最后,将不同层级的异常图简单加和求得最终结果,具体实现可参考技术报告和源代码。官方的测试数据集上提出的方法在综合F1-max指标上达到0.4589,相较于其他众多参赛队伍具有明显的优势,获得了该赛道冠军,证明了所提方法的优越性和泛化性。

ddcbec30bf696bf57bae543d0eeb1297.png

Few-shot扩展

得益于简单有效的结构设计,我们结合基于memory的PatchCore[3]思路将方法扩展到Few-shot赛道,在不进行任何调参的基础上获得了积极竞争的结果,获得了该赛道荣誉提名奖,我们会在后续工作中进一步探究该方法在Few-shot上的应用潜力与价值。

该解决方案不仅在Zero-shot异常检测赛道表现出色,腾讯优图实验室还将其扩展到Few-shot异常检测赛道,并获得了该赛道的荣誉提名奖。在Few-shot异常检测赛道中,该方案在异常检测准确率方面表现优异,展现出出色的适应能力和泛化能力。

腾讯优图实验室在工业人工智能领域的相关成就,为工业质检、产品安全和智能视频等领域的发展提供了新的可能性。未来,腾讯优图将继续致力于推动计算机视觉和人工智能技术的创新,为工业应用带来更多突破和进步,为各行业提供更智能、高效的解决方案。

关于CVPR

CVPR是由IEEE主办的一年一度的全球学术型顶级会议,全称“IEEE国际计算机视觉与模式识别会议”(IEEE Conference on Computer Vision and Pattern Recognition),今年将于6月18日到22日在温哥华会议中心举办。

09133a2d3d2f4b7b19daab9c5856bb19.png

关于腾讯优图实验室

腾讯优图实验室成立于2012年,是腾讯公司旗下顶级人工智能实验室。优图聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地,在推动产业数字化升级过程中,优图始终专注基础研究、产业落地两条腿走路的发展战略,与腾讯云与智慧产业深度融合,挖掘客户痛点,切实为行业降本增效。与此同时,优图关注科技的社会价值,践行科技向善理念,致力于通过视觉AI技术解决社会问题,帮助弱势群体。

腾讯优图实验室的研究成果已被CVPR 2023 VAND研讨会收录。将于6月18日的11:50 AM - 12:00 PM进行相关Talk和QA可以点击阅读原文了解详情。

参考文献:

滑动查看参考文献

[1] Jeong, Jongheon, et al. "Winclip: Zero-/few-shot anomaly classification and segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

[2] Li, Yi, et al. "Clip surgery for better explainability with enhancement in open-vocabulary tasks." arXiv preprint arXiv:2304.05653 (2023).

[3] Roth, Karsten, et al. "Towards total recall in industrial anomaly detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

点击进入—>【目标检测和Transformer】交流群

最新CVPR 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看7ff0f9af1ad9c2f4da67a295bbc8c5d9.gif

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/131278620