I. 概要
インスタンス セグメンテーションとセマンティック セグメンテーションは両方とも、ピクセル レベルで画像をセグメント化できます。違いは、インスタンス セグメンテーションでは異なる個人を区別できるが、セマンティック セグメンテーションでは区別できないことです。
(インスタンスのセグメンテーション) (セマンティック セグメンテーション)
2. ネットワーク構造
Faster RCNN と比較して、Mask RCNN は RoI Plooing をRoI Alignに置き換えます。そしてインスタンスセグメンテーションのブランチはFaster RCNN の外側で並列接続されています。
1.マスク構造
マスク ブランチと予測ブランチはRoI Align を共有せず、マスク ブランチの RoI の最終的な特徴マップは 14*14 です。構造は次のとおりです。
結果は 28*28*numclasses となり、クラスごとにマスクが予測されます。
ネットワーク トレーニング中、マスク ブランチのターゲットは RPN によって提供されますが、トレーニング中に PRN がネットワークに複数の予測値(ボックス)を提供する可能性があるため、予測中はマスク ブランチのターゲットは Fast RCNN によって提供されます。これはデータ拡張と同等であり、予測中には1 つの予測ボックスのみが取得されます。
2.ROIの調整
RoI プーリングは、ターゲットから左上隅までのオフセット距離を計算し、二重丸めを行います。最終結果に影響します
RoI Align は、丸めなしでターゲット ポイントから左上隅までの距離を計算するため、計算精度が向上します。
具体的な計算は、双一次補間を使用して計算します。
4. 損失関数の計算
このうち、rpn と fast_rcnn の損失計算は、faster rcnn と同じであり、Mask ブランチの損失関数は次のように計算されます。
さまざまなカテゴリごとに BCELoss を計算します。