笔记:Score-CAM: 畳み込みニューラル ネットワークのスコア加重視覚的説明

論文: Score-CAM: 畳み込みニューラル ネットワークのスコア加重視覚的説明
著者: Haofan Wang1、Zifan Wang1、Mengnan Du2、Fan Yang2、
Zijian Zhang3、Sirui Ding3、Piotr Mardziel1、Xia Hu

コード: https://github.com/haofanwang/Score-CAM
は CVPR2020 に含まれています

まとめ

以前のCAMベースの方法とは異なり、勾配は必要なく、順伝播でターゲットクラスの各活性化マップの重みを収集することで実現され、最終結果は重みと活性化の線形結合によって得られます地図。

1.はじめに

CNN の可視化には主に 3 つの方法があります: 勾配可視化、摂動、クラス活性化マップ (CAM)

3つの貢献:
1. Perturbation-Based と CAM-Based を接続する Score-CAM 2.
平均ドロップ/平均増加曲線と削除曲線/挿入
曲線指標の定量的評価、Score-CAM は重要な機能を発見できます
3. ポジショニング能力の定量的評価

2.背景

CAM、Grad-CAM

2.1 勾配問題

飽和した深層ニューラル ネットワーク勾配はノイズを導入し、シグモイド層と RELU 層を通過した後に消失する可能性があります。
ここに画像の説明を挿入

信頼性が低い、Grad-Cam はアクティベーション マップの線形平均加重にすぎないため、寄与度が高い (平均特性) 加重が歪められます。Grad-CAM++ はこの問題の改善です。

3. スコアカム

ここに画像の説明を挿入
具体的な方法は、アクティベーション マップの各チャネルをアップサンプリングしてマスクを生成することです。元の画像にマスク ポイントを掛けた後、cnn に入力されます。
ps は、特徴マップの各チャネルについて、アップサンプリングが最大の寄与を持つ領域を取得し、Grad-Cam のような歪みがないことを保証するものとして理解できます。
ここに画像の説明を挿入
上の図は、計算されたマスク ポイントが元の画像に乗算され、それをモデルに入力することによって得られたスコアが、元の画像の直接のスコアから差し引かれることを意味し、これが信頼度の増加として定義されます。

ここに画像の説明を挿入
チャネルごとにマスクを計算する

その後、平滑化 (正規化、正規化による平滑化) が実行され、2 値化されたマスクが [0,1] 間隔にマッピングされて、視覚化がよりリアルでソフトに見えます。

Score-CAM の計算:
ここに画像の説明を挿入
上記は Grad-CAM に似ています。

活性化マップが計算された後、最終的に正規化されます。全体のプロセスは次のとおりです。
ここに画像の説明を挿入

4.実験


ここに画像の説明を挿入
マルチターゲット検出の効果を直感的に比較します.
ここに画像の説明を挿入
Grad-CAM の忠実度評価を比較すると
ここに画像の説明を挿入
, Perturbation Based マスクを比較できます. CAM マスクを使用してモデルに入力し、出力の変化を比較します. 次の図は 2 つのルールに基づいています
.摂動ベースの. 実験の
ここに画像の説明を挿入
後には、データ セット内のターゲットの 50% 以上を占める画像を削除するポジショニング パフォーマンス インデックスが続きます. 最後に、
ここに画像の説明を挿入
Score-CAM を使用してモデルを診断および分析できることを紹介します. .

おすすめ

転載: blog.csdn.net/qq_34813925/article/details/108900194