[ニューラルネットワーク] インスタンスセグメンテーションマスク RCNN

I. 概要

        インスタンス セグメンテーションとセマンティック セグメンテーションは両方とも、ピクセル レベルで画像をセグメント化できます。違いは、インスタンス セグメンテーションでは異なる個人を区別できるが、セマンティック セグメンテーションでは区別できないことです。

                                 (インスタンスのセグメンテーション) (セマンティック セグメンテーション)

2. ネットワーク構造

        Faster RCNN と比較して、Mask RCNN は RoI Plooing をRoI Alignに置き換えます。そしてインスタンスセグメンテーションのブランチはFaster RCNN の外側で並列接続されています。

        1.マスク構造

                マスク ブランチと予測ブランチはRoI Align を共有せず、マスク ブランチの RoI の最終的な特徴マップは 14*14 です。構造は次のとおりです。

                結果は 28*28*numclasses となり、クラスごとにマスクが予測されます。

                ネットワーク トレーニング中、マスク ブランチのターゲットは RPN によって提供されますが、トレーニング中に PRN がネットワークに複数の予測値(ボックス)を提供する可能性があるため、予測中はマスク ブランチのターゲットは Fast RCNN によって提供されます。これはデータ拡張と同等であり、予測中には1 つの予測ボックスのみが取得されます。

         2.ROIの調整

                RoI プーリングは、ターゲットから左上隅までのオフセット距離を計算し、二重丸めを行います。最終結果に影響します

                RoI Align は、丸めなしでターゲット ポイントから左上隅までの距離を計算するため、計算精度が向上します。

                 具体的な計算は、双一次補間を使用して計算します。

4. 損失関数の計算

         損失 = L_{rpn}+L_{fast\_rcnn}+L_{マスク}

        このうち、rpn と fast_rcnn の損失計算は、faster rcnn と同じであり、Mask ブランチの損失関数は次のように計算されます。

                         さまざまなカテゴリごとに BCELoss を計算します。

おすすめ

転載: blog.csdn.net/weixin_37878740/article/details/129488655