エンドツーエンドの動物画像マット

エンドツーエンドの動物画像マット


論文のリンク:https://arxiv.org/abs/2010.16188
論文の出典:2020 CVPR
1.
動物のマットの窮状の背景
(1)動物のマット作業にはさまざまな種類の動物があり、それらはさまざまな形、サイズ、 、ポートレートマットなどの他のマットタスクでは単一のタイプではなく、色と外観
(2)動物の保護色により、前景を識別しにくくなり、動物の毛皮を背景のコンテキストから区別することが困難になります。
(3)現在利用可能なマットデータセットの制限。
ここに画像の説明を挿入
(4)以前のエンドツーエンドのマット化方法には欠点があります
。①ステージごとのセグメンテーション+マット化
はグローバルセグメンテーションとローカルマット化を順番に実行します。前者はトライマップ生成または前景/背景生成を目的とし、後者はからの生成に基づいています。前のステージのTrimapまたは他の前の画像マット。
このパイプラインの不十分さは、後続のマット手順では修正できない誤ったセマンティクスを生成する可能性があるため、そのシーケンシャルな性質によるものです。さらに、2段階の個別のトレーニングスキームは、それらの間の不一致のために次善のソリューションにつながる可能性があります。
ここに画像の説明を挿入
②グローバルガイダンス付き
マットネットワークは、ローカルマットを実行する際のガイダンスとしてグローバル情報を提供します。たとえば、以下のマットネットワークでラフアルファマットを生成して使用し、空間とチャネル方向の注意を使用して、マットネットワークのグローバルマットネットワークを提供します。外観フィルタリング。この方法は、状態ごとのモデリングとトレーニングの問題を回避しますが、新しい問題をもたらします。
グローバルガイダンスは暗黙的に提供されますが、外観とセマンティクスが異なるため、単一のネットワークで前景/背景領域と遷移領域のアルファマスクを同時に生成することは困難です。
ここに画像の説明を挿入
2.コンテンツの
エンドツーエンドの動物イメージマットのための協調ように2つのタスクを学習するために、共有エンコーダと二つの独立したデコーダを使用して、(1)新規の概要及びフォーカスマットネットワーク(GFM)が提案されている、
ここに画像の説明を挿入
(2)が成立し、A 20のカテゴリからの2000の高解像度自然動物画像と手動でラベル付けされたアルファマットを含む新しい動物マットデータセット(AM-2k)
ここに画像の説明を挿入
(3)適切に設計された合成ルートRSSN(ii)代替の前の実施形態(i)の合成組み合わせた画像と自然な画像の違いを減らすために、モデルの一般化能力を改善し
ここに画像の説明を挿入
ます
。3 。ネットワーク 動物の画像マットは、大まかに分割段階とカットアウト段階として説明できます。これらの2つの段階は絡み合っている可能性があることに注意してください。最初の段階では、誤った決定を修正するために2番目の段階からフィードバックがあり、それらを1つのモデルに統合し、のコラボレーションを明示的にモデル化することが合理的です。この目的のために、新しいエンドツーエンドの自然動物画像視覚サッカードフォーカスマットネットワークが提案されています。
ネットワーク構造はコーデックの構造であり、エンコーダーは2つの並列デコーダー(GDとFD)によって共有されます。
次に、GDとFDの出力結果を異なる表現ドメイン(RoSTa)に接続します。
最後に、コラボレーションマット(CM)を通じて、3つの異なるRoSTa特性化ドメインの結果を組み合わせて
ここに画像の説明を挿入
、エンコーダーを共有するアルファ(1)の最終予測を取得し、 2つのデコーダー
①エンコーダーを共有します:
ResNet-34またはDenseNet-121 ImageNetで事前にトレーニングされたものがエンコーダーとして使用されます。5 E渡し、入力として単一の画像を撮る 0 〜E 4を モジュール処理
②GlanceDecoder(GD):
簡単なセマンティック部分を識別し、他の部分を未知の領域として扱うことを目的としています。さらに、受容野を拡大するために、ピラミッド収集モジュール(PPM)の後に追加されているE 4 グローバルコンテキストを抽出し、訓練プロセスクロスエントロピー損失を使用する:
ここに画像の説明を挿入
Gここで C P ∈[0,1]は予測されクラスC、Gの確率 C G ∈{0,1}は、グランドトゥルースラベルです。GDの出力は、RoSTa表現に応じて2チャネルまたは3チャネル(C = 2または3)タイプの確率マップです
。③フォーカスデコーダー(FD):
FDは、低-に非常に役立つ遷移領域の詳細を抽出することを目的としています。レベルの構造的特徴。ブリッジブロック(BB)を使用して、E 4の 後のPPMを置き換え 、さまざまな受容野でローカルコンテキストを使用します。E4及びBBからの特徴は、に連結し、供給される DF 4 、U-ネット[40]スタイル以下、の間のショートカット追加各エンコーダーブロックE I およびデコーダブロックD Fを 私は 細部を保存します。
未知の遷移領域では、トレーニング損失はα予測損失とラプラシアン損失で構成されます。
ここに画像の説明を挿入
(2)RoSTa(意味および遷移領域の表現)
目的:モニター信号表現形式がシステムパフォーマンスに与える影響について話し合う
①GFM-TT:
カーネルサイズ25のグラウンドトゥルースアルファマットの膨張と腐食によって生成された3クラストライマップTをGD監視信号として使用します。未知の遷移ドメインマットαのグラウンドトゥルースアルファがFD監視信号として使用されます。
②GFM-FT:
カーネルサイズ50のグラウンドトゥルースアルファマットの膨張と侵食によって生成された2クラスの前景セグメンテーションマスクがGDの監視信号として使用されます(I(α> 0)の領域)- Fは遷移領域と見なされます)、未知の遷移ドメインのアルファマットはFD監視信号として機能します。
③GFM-BT:
50カーネルサイズの拡張と腐食を伴うグラウンドトゥルースアルファマットによって生成された2クラスのバックグラウンドセグメンテーションマスクがGDの監視信号として使用されます(BIの領域(α> 0)は遷移領域と見なされます)、および未知の遷移領域アルファマットがFD監視信号として使用されます。
(3)Collaborative Matting(CM)
CMは、GDとFDからの予測をマージして、最終的なアルファ予測を生成します。具体的には、CMは、異なるrostasを使用する場合、異なるルールに従います。
①GFM-TTでは、CMはGDの予測の遷移領域をFDの予測に置き換えます。
②GFM-FTでは、CMがGDとFDからの予測を加算して、最終的なアルファマスクを生成します。
③GFM-BTでは、CMは最終的なαマスクとしてGD予測からFD予測を差し引きます。
このように、GDはグローバルな意味的特徴を学習することによって大まかな前景と背景を認識し、FDはローカルな構造的特徴を学習することによって未知の領域の詳細を解決する責任があります。
共同マットのトレーニング損失がα予測損失Lα、ラプラシアン損失LLAP、および即ち合成損失LCOMP、から構成されている:
ここに画像の説明を挿入
4 RSSN
前景画像と背景画像は、通常、異なる分布からサンプリングされるので、合成画像が存在するであろう多数の合成アーティファクト。これにより、合成画像と自然画像の間に大きな地域差が生じます。安価な機能として、合成アーティファクトはモデルを誤解させ、合成画像の過剰適合につながり、自然画像に大きな汎化誤差を生成する可能性があります。
この記事では、解像度の違い、意味のあいまいさ、シャープネスの違い、ノイズの違いなど、合成アーティファクトにつながる要因を体系的に分析しています。これらの問題を解決するために、この記事では、新しい合成ルートRSSNとBG-20kという名前の大規模な高解像度バックグラウンドデータセットを提案します。
RSSNパイプラインは、次の図のパイプラインに要約されています。
ここに画像の説明を挿入
パイプラインの入力はマットデータセットです。
(1)マットデータセットが元の画像を提供する場合、前景は指定されたアルファマットの元の画像から計算されます。
(2)データ拡張のために、BG-20kから各前景のK個の候補背景をランダムに抽出します。
(3)前景画像と背景画像ごとに、0.5の確率でノイズ除去ステップ(ノイズの違いを解決する)を実行します。
(4)大口径の効果をシミュレートするために、0.5の確率で背景画像にぼかしステップを実行します。ここで、ぼかしカーネルサイズは{20、30、40、50、60}からランダムにサンプリングされます(シャープネスの違いを取り除きます)。
(5)式に従って合成画像を生成します。
(6)確率が0.5の場合、合成画像にガウスノイズを追加して、前景領域と背景領域のノイズ分布が同じになるようにします。
(高解像度の紙を使用した違いと意味のあいまいさの解決は、他の動物の被験者が背景データセットBG-20kソリューションを妨害することはありませんでした)5。2 つのトラックで設計された
結果
ベンチマーク:(
。1)ORI-Track(元の画像に基づく、追跡)は、元の自然画像に対してエンドツーエンドのマットタスクを実行するように設定されています。ORI-Trackは主要なベンチマーク追跡です。
(2)COMP-Track(合成画像に基づく追跡)は、画像マットに関するドメイン適応研究を実行するように設定されています。合成画像と自然画像の間のドメインギャップを減らし、ドメイン不変の特徴表現を学習し、より一般化能力の高いモデルを取得
ここに画像の説明を挿入
します。ORI-Trackでの結果:
すべてのSOTAメソッドと比較して、GFMはすべての評価に含まれます。どのRoSTaを使用しても、GFMは前景と背景を同時にセグメント化し、遷移領域を切り取って、最高のパフォーマンスを得ることができます。COMP
-Trackでの結果:
MS COCOデータセット[14]背景トレーニング寝具モデルとして画像、GFMが良好SHMよりも有意に行わ
背景画像は(COMP-BG20K)モザイクモデルを訓練する、本明細書に記載されBG-20Kデータを使用して、すべての方法の誤差は著しく低減
ザを使用して提案された合成パストレーニングモデル(COMP-RSSN)は、エラーをさらに減らすことができます

おすすめ

転載: blog.csdn.net/balabalabiubiu/article/details/115022327