【細粒画像認識のためのリカレントアテンション畳み込みニューラルネットワーク】

弱く監視されたきめ細かい方法に基づいた皮膚疾患の分類

記事タイトル

よく見るために近くで見る: きめ細かい画像認識のためのリカレント アテンション畳み込みニューラル ネットワーク

記事の出典

CVPR2019

著者の動機

領域の位置特定と詳細な特徴の学習は、詳細な問題における 2 つの大きな課題です。既存の (19 年以前の) 手法は主にこれら 2 つの問題を独立して解決することに焦点を当てていますが、2 つの間の相関関係は無視されているため、新しいアーキテクチャである RA-CNN が提案されています。

著者のアイデア

入力画像はアテンション プロポーザル ネットワーク (APN) を通じて切り取られ、双線形補間によって拡大されます。その効果は、写真内の他の情報を破棄し、「私」が見たいものを拡大することに等しい。効果は次のとおりです。
ここに画像の説明を挿入します

ネットワークアーキテクチャ

ここに画像の説明を挿入します
大まかな説明:
元の画像を入力します。元の画像には 2 つのタスクがあります。1 つは、従来の画像分類と同様に、畳み込み全結合ソフトマックスによって元の画像を分類し、一連のカテゴリの確率を取得することです。畳み込み後の元の画像 生成後に取得された一連の特徴マップは、アテンション プロポーザル ネットワーク (APN) を通過してアテンション結果が取得されます。上の図に示すように、鳥の頭に注目しているので、鳥の頭だけを残して他の部分を切り取り、バイリニア プーリングによって鳥の頭を拡大します。記事のタイトルを反映 - 近くで見れば見るほど、より良く見えます

詳細な説明:
画像 A について、特徴抽出 (畳み込み演算) - フル接続 - ソフトマックスの後、以下に示すように、さまざまなカテゴリの確率 P が取得されます。 損失 L(X)1 は次のとおり
ここに画像の説明を挿入します
です
ここに画像の説明を挿入します
。抽出 一連の特徴マップが取得され、注目提案モジュール
(APN) を通じて正方形の注目ブロックが取得され、次のように記録されます。tx は
ここに画像の説明を挿入します
注目中心の x 座標を表し、ty は注目中心の y 座標を表します。 tl は注目ブロックを表し、辺の長さの半分です。これは元の画像に残す必要があるものです。

おすすめ

転載: blog.csdn.net/weixin_46516242/article/details/127853088