KINSデータセット論文の理解とアモーダルインスタンスのセグメンテーション

この問題を解決します

見えない部分の例分割、そのようなデータ・セットおよび方法が、今はめったにありません


この技術革新\貢献

  1. 新しいデータセット、新しいタスクは、データセットがキティ強化されます
  2. マルチレベルは、ネットワークの既存の分割部分のいくつかを予測することは目に見えないコーディングの提案

以前の方法

[ アモーダルインスタンスセグメンテーション ] 2016
[ 不可視のを見て学ぶ:エンドtoendトレーニング可能なアモーダルインスタンスセグメンテーション ] 2019
[ セマンティックアモーダルセグメンテーション ] 2017


方法

この方法をまとめます

まず、一般的なネットワーク部門、回帰と分類の分岐ボックス、プラスシェルターブランチを使用し、新しい枝が閉塞がMLC、箱のブランチブロックにより、発生した場合、何の閉塞が発生していない現在の投資収益率を予測するために使用されます分類ブランチは、マスク特徴のすべての分岐は、最終的なアモーダル分裂を与えるためにマスク、その後、一緒に融合されました。

マルチレベルコーディング

著者のアプローチは、よりよい推論ブロックされたサイトへのセグメンテーションのシニア枝を案内する意味情報を抽出することです。

MLCグローバルな情報のみを正枝ロワのために、マスクの予測を拡大表示することができながら、今マスクとヘッド方法バックボーンとの距離が長く、簡単には、情報の一部を失い、唯一の正RoIの機能を抽出し、MLCに送信されますグローバル指針として。

陽性サンプルとそれを隠されたRoIの

BBOXサイズの分類と枝がブロックされています 7 × 7 7 \回7 、マスクの大きさは、のブランチです 14 × 14 14 \回14 、マスクへと分岐する前に、何らかの処理を行うために、二つのモジュールがあり、合わせて、抽出するために使用されています
ここに画像を挿入説明

コンボリューションカーネルのサイズはこちら C × C × 3 × 3 C \回C \回3 \回3 、ステップ1、及び充填され、 C C チャネルの数であります

チャネルは、このメカニズムが通路の注目のように表示される前に、バーの説明であってもよいし、チャネルのxは

抽出
グローバル機能への複合型と閉塞情報

対応する特徴は、図に統合されています

シャッターボックス、次に、分類特性に接続されています。 2 C × C × 3 × 3 2C \回C \回3 \回3 コンボリューションカーネルのデコンボリューション(2つの特徴情報の融合のために、アップサンプリングされた)操作、及びサンプルを畳み込み二つの層に供給され、プラスReLuを行います

核融合
、グローバルとローカルの手がかり特殊な分岐マスクに参加するためには、ヘルプセグメンテーションマスクの機能をローカルおよびグローバルな特徴をミキシング機能と、抽出した特徴統合層をマスクし、その後3つの連接畳み込み層に投げ込まれ、プラスReLU。
最終層は、半分に低減されるチャネルのコンボリューションであるので、同一の寸法およびマスクの出力ブランチ、前記最終のセグメンテーションマスクに出力ブランチ。

結論は、機能マスクの背後にあるが、また、2つの分類からの情報を組み合わせて、マスク行った後に行います

オクルージョン分類支店

多くの場合は、ROI内に存在する可能性があるため、唯一のグローバルボックス機能は、十分ではありません、マスクはうちの2つを予測できる可能性があり、他のインスタンスが特徴

これは、ああ、いくつかの問題を抱えている、あなたをでたらめされていません

そのため、シャッターの位置を決定することが可能閉塞分類枝の導入は、シャッタがROIに分岐の存在または不在によって決定されます

実験は、このブランチは目に見えない、多くの機能を提供できることを示しています

ここに画像を挿入説明
一般に、フォアグラウンドのROI内の128回の結果とRPN 512から抽出されたお勧めします。

統計では、40 ROIは、ほとんどのニーズを満たすことができるようになります。

しかし、わずか約斜線1〜10画素の領域、及び割合閉塞極端な不均衡、ROIのベースの特徴抽出を非閉塞、非常に小さな領域の機能が損なわれ、あるいは失われ、マスクの全面積の5%のみがオーバーラップ面積よりも大きいです試料ブロックとして、不均衡の問題を解決するために、正のRoIの重量損失は8であったセット。

問題に少なすぎるのブロッキング


トレーニング

ネットワークアーキテクチャ

ここに画像を挿入説明

ネットワークセグメンテーションを利用することができる前に、そのような限り入力アモーダルマスクを閉塞することができると予測されるように、RCNNとPanetマスク。

著者は推論オクルージョン領域にグローバルな情報を使用して、上部のRPNの構造は、3つの分岐、箱の分類、ボックスの回帰、分類ブロックを持っています。最初の二つのブランチの最後の2つの層が、共有重みである以外は、FC、FCは機能が全事例ベース推論を助けるために使用されていてもよい。このような構成は、最終的な、全体的な知覚の問題を予測するために使用しました。マスクは、それが、最終的な予測をして、MLCの統合によって特徴付けられるであろう、下の枝です。

この共有特性は非常に重要であることは、グローバルな情報がありますか。

詳細は、全てのROIが入力分岐され、各ブランチは、閉塞部、提案されたマルチレベル符号化(MLC)方式を予測するために、結果は、MLCに送信される4つの連結畳み込みReLu動作および組成物で構成されていアモーダルセグメンテーションは、可視手がかり例および全体領域の本質的な知覚によって同時に達成することができます。

実験は、より多くの反復があまりにも縮小または消滅し閉塞し、イテレーション数の増加とともに、地域に合わせられることを示し、安定化の可視部分を予測

私は、この数字は上下逆さまに掲載、マスクの右側には、いくつかのより明らかである疑いがあります
ここに画像を挿入説明

構造解析

私たちは、CNNの性質のオーバーフィッティングの原因について説明します。

  1. コンボリューションは、この損失分割された領域のために正確なローカル機能とグローバルな情報をキャプチャすることができます

    したがって、増加の注目を解決することができますか?

  2. 完全にその包括的な理解ネットワークインスタンスので、重合操作及び空間情報チャネルによって接続されています。

既存の分割フレームのいくつかの例では、マスクヘッドは、典型的には、4つの畳み込みネットワークとデコンボリューションで構成されるヘッドは、地元の情報をフルに活用します

それでは、どのグローバル情報を使用するには?

但是没有全局信息或先验知识,很难预测不可见的区域,看不见的还是遮住了

没有预知的3D模型也很难搞
Path aggregation network for instance segmentation 2018
这个讲了下不挨着的物体的全局信息的重要性,可以看看

所以,全局信息的强感知能力是网络识别遮挡区域的关键。

这句话作者特别重视

Loss

RPN,box识别,遮挡分类,mask预测的系数都设置为1

L = L C リットル S + L B インクルード バツ + L インクルード C C リットル S インクルード n個 + L メートル A S K A + L メートル A S K L = L_{cls} + L_{box} + L_{occlusion} + L_{mask_a} + L_{mask_i}
推理的时候还不太一样,根据box分支和推荐位置,来回归box,然后再把更新的box放进box分支来提取class和遮挡特征,选NMS后的box来做mask预测。

是说先预测个结果,再根据推荐位置,推测出个box结果,此时,再用这box来提取特征,顶算是微调了一次bbox呗

公開された63元の記事 ウォンの賞賛2 ビュー8016

おすすめ

転載: blog.csdn.net/McEason/article/details/104346679