深層学習に関する論文: WinCLIP: ゼロショット/フューショット異常の分類とセグメンテーション

ディープ ラーニングの論文: WinCLIP: ゼロ/少数ショット異常の分類とセグメンテーション
WinCLIP: ゼロ/少数ショット異常の分類とセグメンテーション
PDF: https://arxiv.org/pdf/2303.14814.pdf
PyTorch コード: https:// github.com/shanglianlm0525/CvPytorch
PyTorch コード: https://github.com/shanglianlm0525/PyTorch-Networks

1。概要

WinCLIP は、CLIP (Contrastive Language-Image Pretraining) モデルに基づいた手法で、ゼロ ショット異常および少数ショット異常の分類およびセグメンテーション タスクに使用されます。この方法では、テキスト エンコーダーと画像エンコーダーを組み合わせ、CLIP モデルのテキストと画像の相関機能を利用して、正確な異常の特定と位置特定を実現します。

WinCLIP の中心となるアイデアは、さまざまな状態とテンプレートをテキスト埋め込みに変換し、それらを画像エンコーダーによって生成された画像埋め込みと関連付けることによって、異常なサンプルと正常なサンプルの関係を学習することです。この目標を達成するために、WinCLIP では参照関連付けの概念が導入されています。AS/AC の小さなサンプルのテキストガイドによるスコアリングを通じて集計された、ビジョンベースの異常スコアリング マップに参照相関を適用します。参照相関は、異常なサンプルの特性を捕捉し、正確な分類とセグメンテーションを実現するのに役立ちます。

実験では、MVTec AD、CIFAR-10、MNIST などの複数のデータセットで WinCLIP が評価されました。実験結果は、WinCLIP がゼロサンプルおよび少数サンプルの異常分類およびセグメンテーション タスクで優れたパフォーマンスを発揮することを示しています。これは、他の最先端の方法よりも優れたパフォーマンスを発揮し、さまざまな異常タイプやサンプル数の下で堅牢性と一般化機能を示します。

ここに画像の説明を挿入します

2 WinCLIP と WinCLIP+

さまざまな状態とテンプレートが合成され、CLIP テキスト エンコーダーを介してクラス プロトタイプとして 2 つのテキスト エンベディングに変換されます。WinCLIP のゼロショット AC/AS 用の CLIP イメージ エンコーダのマルチスケール機能に関連するクラス プロトタイプ。WinCLIP+ は、小/中ウィンドウ パッチの参照関連付け (パッチ/ウィンドウ アソシエーション) を、テキスト ガイド付きスコアリングを使用して AS/AC の小さなサンプルに対して集計されたビジョンベースの異常スコア マップに適用します。
ここに画像の説明を挿入します

2-1 言語主導のゼロショット AC

この論文では、初期 CLIP に基づいてゼロショット分類を改善し、ゼロショット設定での異常分類を改善するために、CLIP-AC と呼ばれるフレームワークを提案しています。

オブジェクトの 2 つの抽象状態をより正確に定義するために、自由記述の定義の代わりに、事前定義された (a) 各ラベルの状態単語リストと (b) テキスト テンプレートのすべての組み合わせを生成する構成プロンプト アンサンブルが導入されています。ステータスの単語には、通常の「完璧」や異常な「損傷」など、ほとんどのオブジェクトに共有される共通の状態が含まれます。さらに、欠陥に関する事前の知識に基づいて、PCB 上の「はんだ付け不良」などのタスク固有のステータス ワードをオプションで追加できます。さらに、「目視検査用の [c] の写真」など、珍しいタスク用のテンプレートのリストも厳選しました。このようにして、オブジェクトの状態をより適切に定義し、より正確で信頼性の高い異常分類を提供できるようになります。

  • CPE (コンテキスト プロンプト エンジニアリング) と CLIP プロンプト アンサンブルは異なります。CLIP Prompt Ensemble はオブジェクト ラベル (「猫」など) を解釈せず、試行錯誤を通じてテンプレートを選択することによってオブジェクトの分類を強化するだけです。これには、「漫画 [c]」などの特殊なタスクには適さないテンプレートも含まれます。したがって、CPE のテキストは、CLIP の結合埋め込み空間内の画像とより一致しており、異常なタスクに適しています。

  • CPE (Compositional Prompt Ensemble) を使用したデュアルクラス設計は、標準のシングルクラス手法と比較して、例外を定義する新しい手法です。異常検出は未解決の問題であるため、不適切な状態に悩まされます。従来の方法では、正常な画像を通じてのみ正常性をモデル化し、正常性からの逸脱を異常として扱いました。ただし、この解決策では、「回路上の傷」と「小さいが許容できる傷」の違いなど、真の異常と正常からの許容可能な逸脱とを区別することが困難になります。ただし、言語は具体的な単語を使用して状態を明確に定義できます。CPE を使用することにより、デュアルクラス設計により異常をより正確に定義し、より信頼性の高い異常検出結果を提供できます。

このホワイトペーパーで使用されているコンテキスト プロンプト エンジニアリングは次のとおりです。
ここに画像の説明を挿入します

2-2 ゼロショット AS 用 WinCLIP

事前トレーニングされた CLIP モデルが使用され、ゼロショット異常セグメンテーションのために言語一貫性のあるマルチスケール空間特徴を効果的に抽出および集約できる WinCLIP が提案されています。

CPE の言語ガイド付き異常スコアリング モデルを考慮して、ピクセル レベルの異常を予測するためのゼロ ショット異常セグメンテーション手法として、ゼロ ショット異常セグメンテーション用のウィンドウ ベースの CLIP (WinCLIP) が提案されています。WinCLIP は、適切な言語的整合性と X ローカルの詳細を備えた高密度の視覚特徴を抽出し、空間的にascore 0 ascore_{0}を適用します。スコア_ _0異常なセグメンテーションマップを取得します。具体的には、解像度 h×w の画像 x と画像エンコーダ f が与えられると、WinCLIP は d 次元の特徴マップ FW ∈ R h × w × d F^{W}∈R^{h×w×d} を取得します。FWRh × w × dのマッピングは次のとおりです。

1. 一連のスライディング ウィンドウ {wij}ij を生成します。ここで、各ウィンドウwij ∈ 0, 1 h × w w_{ij}∈{0,1}^{h×w}wイジ0 1h × w は、(i, j) の周囲の k × k カーネルがローカルにアクティブになるバイナリ マスクです。

2. F ij WF^{W}_{ij}を埋め込んだ各出力を収集します。FijW、各Wij w_{ij}の用途に応じてwイジx の有効面積の計算は次のように定義されます。F ij W : = f ( x ⊙ wij ) F^{W}_{ij}: =f(x⊙w_{ij})FijW:=f ( xwイジ)、ここで ⊙ は要素ごとの積です (下図を参照)。
ここに画像の説明を挿入します
ウィンドウの調和集計:
各ローカル ウィンドウのゼロサンプル異常スコアM 0 , ij WM^{W}_{0,ij}M0 ijW窓特徴量F ij WF^{W}_{ij}FijW合成キューと統合されたテキスト埋め込み間の類似性。スコアはローカル ウィンドウの各ピクセルに分配されます。次に、ピクセルごとに、重なり合うすべてのウィンドウからの複数のスコアが集計され、調和平均によってセグメンテーションが改善されます。これにより、予測を達成するためにスコアの重みが大きくなります。
ここに画像の説明を挿入します
マルチスケール集約:
カーネル サイズ k は、WinCLIP 計算式の各位置の周囲のコンテキストの数に対応します。セグメンテーションにおけるローカルな詳細とグローバルな情報の間のバランスを制御します。小さなサイズから大きなサイズまでの欠陥を捕捉するために、マルチスケールの特徴からの予測を集約します。具体的には、次のスケールの機能を使用しました。

  • (a) 小スケール: ViT のパッチ スケールの 2×2、ピクセルの 32×32 に相当します。
  • (b) メソスケール: ViT の 3×3、ピクセルの 48×48 に相当します。
  • (c) 画像スケール機能: セルフ アテンション メカニズムにより画像コンテキストをキャプチャする ViT のようなトークン。

これらのマルチスケールの特徴を集約するために、調和平均を採用します。この方法では、さまざまなスケールの特徴間の重要性のバランスをとり、より包括的な予測結果を得ることができます。

2-3 WinCLIP+ 数枚のノーマルショット

包括的な異常の分類とセグメンテーションの場合、一部の欠陥はテキストではなく視覚的な参照によってのみ定義できるため、テキストに基づいたゼロショット手法では不十分です。異常をより正確に定義して特定するために、K 個の通常の参照画像をマージすることで WinCLIP の拡張である WinCLIP+ を提案しますD: = (xi, −) i = 1 KD:={(x_{i}, −)}^ {K}_{i=1}D:=( ×私はi = 1KWinCLIP+ は、テキスト ガイドとビジョン ベースの方法による補完的な予測を組み合わせて、より適切な異常分類とセグメンテーションを実現します。

ここに画像の説明を挿入します
まず、参照関連付けモジュールと呼ばれる主要なモジュールが導入され、指定された参照画像をマージします。このモジュールは、コサイン類似性に基づいてメモリ特徴 R を単純に保存および取得できます。クエリ画像 (パッチレベル 2 など) から抽出された特徴 F をそのようなモジュールと組み合わせることで、異常セグメンテーションの予測 M を行うことができます。予測結果 M は h×w 行列で、各要素の値は 0 ~ 1 です。この予測結果から画像内の異常領域の確率を推定することができ、値が 1 に近いほど異常領域である可能性が高くなります。
ここに画像の説明を挿入します
小規模サンプルの場合、3 つの異なる機能から個別の参照メモリを構築しました: (a) 小規模機能 FW の WinCLIP 機能、(b) 中規模機能の WinCLIP 機能、およびグローバル コンテキストを持つ © 最後から 2 番目の FW。 FP。つまり、RW、RWm、RP です。次に、特定のクエリに対してマルチスケール予測が行われ、さらに平均化されてクエリの異常セグメンテーションが取得されます。
ここに画像の説明を挿入します

また、異常分類を行うために、MWM^{W}と組み合わせてください。MWおよび WinCLIP ゼロショット分類スコアの最大値。2 つのスコアには補完的な情報があり、特に (a) 1 つは小規模サンプルの参照からの空間特徴からのものであり、(b) もう 1 つは言語を介して取得された CLIP 知識からのものです。
ここに画像の説明を挿入します

3 実験

ゼロ発/数発発の異常の分類
ここに画像の説明を挿入します

ゼロ/少数ショット異常セグメンテーション
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/shanglianlm/article/details/132432407