弱く監視されたきめ細かい方法に基づいた皮膚疾患の分類
記事タイトル
よく見るために近くで見る: きめ細かい画像認識のためのリカレント アテンション畳み込みニューラル ネットワーク
記事の出典
CVPR2019
著者の動機
領域の位置特定と詳細な特徴の学習は、詳細な問題における 2 つの大きな課題です。既存の (19 年以前の) 手法は主にこれら 2 つの問題を独立して解決することに焦点を当てていますが、2 つの間の相関関係は無視されているため、新しいアーキテクチャである RA-CNN が提案されています。
著者のアイデア
入力画像はアテンション プロポーザル ネットワーク (APN) を通じて切り取られ、双線形補間によって拡大されます。その効果は、写真内の他の情報を破棄し、「私」が見たいものを拡大することに等しい。効果は次のとおりです。
ネットワークアーキテクチャ
大まかな説明:
元の画像を入力します。元の画像には 2 つのタスクがあります。1 つは、従来の画像分類と同様に、畳み込み全結合ソフトマックスによって元の画像を分類し、一連のカテゴリの確率を取得することです。畳み込み後の元の画像 生成後に取得された一連の特徴マップは、アテンション プロポーザル ネットワーク (APN) を通過してアテンション結果が取得されます。上の図に示すように、鳥の頭に注目しているので、鳥の頭だけを残して他の部分を切り取り、バイリニア プーリングによって鳥の頭を拡大します。記事のタイトルを反映 - 近くで見れば見るほど、より良く見えます
詳細な説明:
画像 A について、特徴抽出 (畳み込み演算) - フル接続 - ソフトマックスの後、以下に示すように、さまざまなカテゴリの確率 P が取得されます。 損失 L(X)1 は次のとおり
です
。抽出 一連の特徴マップが取得され、注目提案モジュール
(APN) を通じて正方形の注目ブロックが取得され、次のように記録されます。tx は
注目中心の x 座標を表し、ty は注目中心の y 座標を表します。 tl は注目ブロックを表し、辺の長さの半分です。これは元の画像に残す必要があるものです。