クラスアクティベーションマッピングCAM(クラスアクティベーションマッピング)

上で述べたように、弱教師セマンティック セグメンテーションでは、画像レベルのラベルを使用して画像内のオブジェクトの位置を特定します
その中で、いくつかの先行研究では、クラス活性化マップを適用する手法が提案されています。CAM、Grad-CAM、Score-CAM のいずれであっても、それらはすべて同様のパイプラインに従って CAM を生成します。

カム

CAMとは何ですか?

一言で言えば、CNN を視覚化するためのツールです。CAMを使用すると、ネットワークが画像のどの領域に焦点を当てているかを明確に観察できます。

提案する

この技術は、2016 年の CVPR で Zhou Bolei によって提案されました。著者は、位置決めラベルなしでも学習された CNN 中間層がターゲット位置決めの特徴を持っていることを発見しましたが、この特徴は畳み込み後のベクトルによって引き伸ばされて連続しています。破棄されますが、最後の複数の完全に接続されたレイヤーがグローバル平均プーリング レイヤー GAP と、その後に Softmax が続く単一の完全に接続されたレイヤーによって置き換えられる場合、この機能は保存できます。同時に、CNNが画像があるクラスに属することを確認するためのクラス識別領域、つまりCAMを簡単な計算で求めることができます。

原理

この論文の文言を使用すると、クラス活性化マップは、さまざまな空間位置でのこれらの視覚パターンの存在の重み付き線形和にすぎません。クラス アクティベーション マップを入力画像のサイズにアップサンプリングするだけで、特定のクラスに最も関連する画像領域を識別できます。この一節を数学的な言葉に翻訳すると、次の式になります。
ここに画像の説明を挿入
最終的な CAM 値が大きいほど、分類への寄与度が高くなります。下の最後の図のヒート マップの赤い領域は最大の CAM 値を示し、これはオーストラリアン ドッグの顔の領域でもあります。
ここに画像の説明を挿入
上の図のネットワークは、分類トレーニングに基づいた CNN ネットワークです。入力は一番左にあり、中央に多くの畳み込み層があります。最後の畳み込み層の後には、グローバル平均プーリング層 (GAP) があります。最後にソフトマックスの層で出力を取得します。

GAP は特徴マップを特徴ベクトルに変換するもので、特徴マップの各層は値で表されるため、この特徴マップの深さが 3 (赤、緑、青) の場合、この特徴ベクトルの長さは次のようになります。 3. うちの犬はオーストラリアンテリアです。オーストラリアン テリアのクラスに対応する重みと特徴マップに対応するレイヤーを乗算し、ヒート マップ、つまり次のヒート マップの行で正規化します: W1 青レイヤー + W2 赤レイヤー + ... + Wn *緑色の層 = クラス活性化マップ (CAM)。

したがって、CAM は加重線形和です。一般に、最後の畳み込み層のサイズは入力サイズと等しくないため、このクラス アクティベーション マップを (激しいアップサンプリングを通じて) 元の画像のサイズにアップサンプリングし、元の画像に重ね合わせる必要があります。ネットワークがこの出力を取得して、画像のどの領域に焦点を合わせているかを観察します。これは、入力画像のサイズと畳み込み層の深さが任意である可能性があることを意味します。

評価

記事の中で著者は、CAMが位置するエリアを弱教師付きターゲット測位の予測として直接使用できると述べ、関連する実験が行われたが、最良の弱教師付き測位アルゴリズムの効果が大幅に改善されただけでなく、ただし、必要な前方推論プロセスは 1 つだけであり、位置決めフレームが利用可能です。

弱教師セマンティック セグメンテーションでは、CAM が常にシード領域を生成するためのコア アルゴリズムとなってきました。ただし、CAM の欠点も明らかです: 最も識別性の高い領域にのみ焦点を当て、ターゲット全体をカバーできないため、後続のアルゴリズムのほとんどはこの問題を解決するか、後処理 CAM になります。

おすすめ

転載: blog.csdn.net/lolisky/article/details/129031723