MPDIoU: 効率的かつ正確な境界ボックス回帰の損失

MPDIoU: 効率的かつ正確なバウンディングボックス回帰の損失

MPDIoU: 効率的かつ正確な境界ボックス損失回帰関数

まとめ

バウンディング ボックス回帰 (BBR) は、ターゲットの検出とインスタンスのセグメンテーションで広く使用されており、ターゲットの位置特定における重要なステップです。ただし、既存のバウンディング ボックスの回帰損失関数のほとんどは、予測ボックスのアスペクト比がバウンディング ボックスと同じであるが、幅と高さの値が完全に異なる場合には最適化できません。上記の問題を解決するために,我々は,水平長方形の幾何学的特性を最大限に活用し,最小点距離に基づく新しいバウンディングボックス類似性比較指標MPDIoUを提案する.この指標には,既存の損失関数で考慮されるすべての関連要素,すなわち重複または非重複が含まれる-重複領域、中心点距離、幅と高さの偏差を計算しながら、計算プロセスを簡素化します。これに基づいて、MPDIoU に基づくL MPDIoUと呼ばれる境界ボックス回帰損失関数を提案します。実験結果は、PASCAL VOC、MS COCO、および IIIT5k でトレーニングされた最先端のインスタンス セグメンテーション (YOLACT など) およびオブジェクト検出モデル (YOLOv7 など) に適用すると、MPDIoU 損失関数が既存の損失関数を上回るパフォーマンスを示すことを示しています。

キーワード: オブジェクト検出、インスタンス セグメンテーション、バウンディング ボックス回帰、損失関数

 1 はじめに

オブジェクトの検出とインスタンスのセグメンテーションは、コンピューター ビジョンにおける 2 つの重要な問題であり、近年研究者の間で広く注目を集めています。ほとんどの最先端の物体検出器 (YOLO シリーズ [1、2、3、4、5、6]、Mask R-CNN [7]、Dynamic R-CNN [8]、DETR [9] など)境界ボックス回帰 (BBR) モジュールに依存してオブジェクトの位置を決定します。これに基づいて、BBR の成功には、適切に設計された損失関数が不可欠です。現在、ほとんどの BBR 損失関数は、 n -norm ベースの損失関数と IoU ベースの損失関数の 2 つのカテゴリに分類できます

ただし、既存のバウンディング ボックス回帰の損失関数は、異なる予測結果の下でも同じ値を持ち、バウンディング ボックス回帰の収束速度と精度が低下します。したがって、既存のバウンディングボックス回帰損失関数の長所と短所を考慮して、水平長方形の幾何学的特性に触発されて、最小点距離に基づいて新しいバウンディングボックス回帰損失関数LMPDIOUを設計し、MPDIoUをバウンディングボックス回帰として使用することを試みますプロセス 予測境界ボックスとグラウンドトゥルース境界ボックスの類似性を比較するための新しい基準。また、軸が揃った 2 つの長方形の間の MPDIoU を計算する実装が簡単なソリューションも提供しており、これを最先端のオブジェクト検出およびインスタンス セグメンテーション アルゴリズムの評価メトリクスとして使用できます。いくつかの主流のオブジェクト検出、シナリオ テストは、PASCAL VOC [10]、MS COCO [11]、IIIT5k [12]、MTHv2 [13] などのテキスト認識およびインスタンス セグメンテーション データセットに対して実施され、私たちが提案する MPDIoU のパフォーマンスを検証しました。

この記事の貢献は次の点に要約できます。

1. 既存の IoU ベースの損失とn- norm 損失の長所と短所を検討し、既存の損失の問題を解決し、より高速な収束を得るために、LMPDIOUと呼ばれる最小点距離に基づく IoU 損失を提案しました。より正確な回帰結果が得られます。

2. ターゲット検出、キャラクターレベルのシーンテキスト認識、インスタンスセグメンテーションタスクに関して多数の実験を実施しました。優れた実験結果により、提案された MPDIoU 損失関数の優位性が証明されています。詳細なアブレーション研究では、損失関数とパラメータ値のさまざまな設定の影響が示されています。

2.関連作品

2.1. オブジェクトの検出とインスタンスのセグメンテーション

      ここ数年、さまざまな国や地域の研究者が、深層学習ベースのオブジェクト検出およびインスタンスのセグメンテーション手法を多数提案してきました。要約すると、バウンディング ボックス回帰は、多くの代表的なオブジェクト検出およびインスタンス セグメンテーション フレームワークの基本コンポーネントとして使用されてきました [14]。ターゲット検出用のディープ モデルのうち、R-CNN シリーズ [15]、[16]、[17] は 2 つまたは 3 つのバウンディング ボックス回帰モジュールを使用してより高い位置精度を取得しますが、YOLO シリーズ [2、3、6] と SSD はシリーズ [18、19、20] は、より高速な推論を実現するためにバウンディング ボックス回帰モジュールを採用しています。RepPoints [21] は、長方形のボックスを定義するためのいくつかの点を予測します。FCOS [22] は、サンプリング ポイントから境界ボックスまでの上下左右のユークリッド距離を予測することでターゲットの位置を特定します。

セグメンテーションの例では、PolarMask [23] は、サンプリング ポイントからオブジェクトのエッジまでのn方向のn光線の長さを予測して、インスタンスをセグメント化します。また、RRPN [24] や R2CNN [25] など、回転角度回帰によって任意の方向の物体を検出し、リモート センシング検出やシーン テキスト検出に使用される検出器もいくつかあります。Mask R-CNN [7] は Faster R-CNN [15] に追加のインスタンス マスキング ブランチを追加しますが、最近の最先端の YOLACT [26] は RetinaNet [27] で同じことを行います。要約すると、バウンディング ボックス回帰は、オブジェクト検出とインスタンス セグメンテーションのための最先端のディープ モデルの重要なコンポーネントです。

2.2. シーンテキスト認識

        任意の形状のシーンテキストの検出と認識の問題を解決するために、ABCNet [28] とその改良版 ABCNet v2 [29] は BezierAlign を使用して任意の形状のテキストを通常のテキストに変換します。これらの方法は、エラー修正モジュールを通じて検出と認識をエンドツーエンドのトレーニング可能なシステムに統合することにより、大きな進歩を遂げました。[30] は、任意の形状のテキスト認識のための特徴を抽出する RoI マスキングを提案しました。[30、31] と同様に、シーン テキスト検出にはより高速な検出器を使用するようにしてください。AE TextSpotter [32] は、認識結果を使用して、言語モデルを通じて検出をガイドします。[33] に触発されて、[34] は、インスタンス レベルのテキスト セグメンテーション結果を提供する、トランスフォーマー ベースのシーン テキスト認識方法を提案しました。

2.3. バウンディングボックス回帰の損失関数

当初、 nノルム損失関数は      バウンディング ボックス回帰で広く使用されていました。これは非常に単純ですが、さまざまなスケールに敏感です。YOLO v1[35] では、この影響を軽減するために平方根whが使用されますが、YOLO v3[2] では 2− whが使用されます。実際の境界ボックスと予測された境界ボックスの差をより適切に計算するために、ユニットボックスから開始して IoU 損失 [36] が使用されます。トレーニングの安定性を確保するために、Bounded-IoU loss [37] により IoU の上限が導入されています。オブジェクト検出とインスタンスのセグメンテーションのための深いモデルをトレーニングする場合、IoU ベースのメトリクスは、ℓ nパラダイムよりも一貫性があると考えられています [38、37、39]。元の IoU は、予測されたバウンディング ボックスと実際のバウンディング ボックス (図 1(a) を参照) の交差領域と結合領域の比率を表し、次のように表すことができます。

図 1: 既存の境界ボックス回帰指標の計算係数には、GIoU、DIoU、CIoU、EIoU が含まれます

式では、Bgtは実際の境界ボックス、Bprdは予測された境界ボックスです。元の IoU は 2 つの境界ボックスの結合領域のみを計算し、2 つの境界ボックスが重ならない状況を区別できないことがわかります。式 1 に示すように、| B gt B prd |=0の場合、IoU( B gt , B prd)=0になります。この場合、IoU は 2 つのボックスが互いに近いか遠いかを反映できません。したがって、この問題を解決するために GIoU [39] が提案されました。GIOU は次のように表現できます。

このうち、CはBgtBprdを覆う最小のボックス(図 1(a) の黒い点線のボックスとして表示)、| C|はボックスCの面積です。GIoU 損失におけるペナルティ項の導入により、重複しない場合、予測ボックスはターゲット ボックスに向かって移動します。GIoU 損失は、YOLO v3 や Faster R-CNN などの最先端の物体検出器のトレーニングに適用され、MSE 損失や IoU 損失よりも優れたパフォーマンスを達成しました。ただし、予測された境界ボックスが実際の境界ボックスで完全に覆われると、GIoU は有効性を失います。この問題を解決するために、予測された境界ボックスと実際の境界ボックスの間の重心点の距離を考慮する DIoU [40] が提案されました。DIoU の式は次のように表すことができます。

このうち、ρ 2 ( B gt , B prd)は、予測された境界ボックスの中心点と真の境界ボックスの中心点 (図 1(b) の赤い点線で示されている) の間のユークリッド距離です。C2 は、最小の閉じた長方形 (図 1(b) の黒い点線で示されている) の対角線の長さを表します。LDIoUの目標は、予測されたバウンディング ボックスの中心点と実際のバウンディング ボックスの中心点の間の距離を直接最小化することであることがわかります。ただし、予測されたバウンディング ボックスの中心点が実際のバウンディング ボックスの中心点と一致する場合、元の IoU に低下します。この問題を解決するために、中心点距離とアスペクト比の両方を考慮したCIoUが提案されています。CIoU の式は次のように記述できます。

ただし、CIoUで定義されるアスペクト比は相対値であり、絶対値ではありません。この問題に対処するために、次のように定義される DIoU に基づいて EIoU [41] が提案されました。

ただし、図 2 に示すように、予測されたバウンディング ボックスとグラウンド トゥルース バウンディング ボックスのアスペクト比は同じですが、幅と高さの値が異なる場合、バウンディング ボックス回帰に対する上記の損失関数は有効性を失い、収束速度が制限されます。そして精度。したがって、LGIoU [39]、LDIoU [40]、LCIoU [42]、LEIoU [41]の利点を考慮して、より高い境界ボックス回帰効率と精度を備えながら、境界ボックス回帰用の新しい損失関数LMPDIoUを設計しようとします。

ただし、バウンディング ボックス回帰の幾何学的特性は、既存の損失関数では十分に活用されていません。したがって、予測境界ボックスとグラウンドトゥルース境界ボックスの間の左上と右下の点の距離を最小限に抑えることで、オブジェクト検出、キャラクターレベルのシーンテキスト認識、インスタンスセグメンテーションのためのディープモデルをより適切にトレーニングするためのMPDIoU損失を提案します。

図 2: 境界ボックス回帰結果が異なる 2 つのケース。緑色のボックスは実際の境界ボックスを表し、赤色のボックスは予測された境界ボックスを表します。LGIoULDIoULCIoUの 2 つのケースのLMPDIoU値はまったく同じですが、それらのLMPDIoU

3. 点間距離が最小の和集合点

前述の IoU ベースの損失関数の長所と短所を分析した後、バウンディング ボックス回帰の精度と効率を向上させる方法を考え始めました。一般に、左上隅と右下隅の点の座標を使用して、一意の長方形を定義します。バウンディング ボックスの幾何学的特性からインスピレーションを得て、MPDIoU と呼ばれる新しい IoU ベースのメトリックを設計します。これは、予測されたバウンディング ボックスと実際のバウンディング ボックスの間の左上と右下の点の距離を直接最小化します。アルゴリズム 1 は MPDIoU の計算を要約したものです。

要約すると、私たちが提案する MPDIoU は 2 つの境界ボックス間の類似性比較を簡素化し、重複または非重複の境界ボックス回帰に適応できます。したがって、MPDIoU は、2D/3D コンピュータ ビジョン タスクで使用されるすべてのパフォーマンス指標の中で、IoU の適切な代替として機能します。このペーパーでは、2D オブジェクトの検出とインスタンスのセグメンテーションのみに焦点を当てており、MPDIoU をメトリクスと損失として簡単に使用できます。軸が整列していない 3D ケースへの拡張は将来の作業に残されています。

3.1 MPDIoU バウンディングボックス損失関数

トレーニング段階では、モデルは損失関数を最小化することによって各境界ボックスB prd = [ x prd , y prd , w prd , h prd ]TB prd = [ x prd , y prd , w prd , h prd ]Tを予測します。真の境界ボックスに強制的に近似させるB gt = [ x gt , y gt , w gt , h gt]T :

ここで、B gtは実際の境界ボックスのセット、Θは深度回帰モデルのパラメーターです。Lの典型的な形式は、平均二乗誤差 (MSE) 損失やSmooth- l1損失 [43]などの n ノルムで、これらはターゲット検出 [44]、歩行者検出 [45、46]、シーン テキスト認識で広く使用されています。 [44] 34、47]、3D オブジェクト検出 [48、49]、姿勢推定 [50、51]、インスタンス セグメンテーション [52、26]。しかし、最近の研究では、n ノルムに基づく損失関数は評価指標、つまり IoU (Interaction over Union) と矛盾することが示されており、代わりに IoU ベースの損失関数が提案されています [53, 37, 39]。前のセクションの MPDIoU の定義に従って、MPDIoU に基づいて損失関数を次のように定義します。

したがって、既存のバウンディング ボックス回帰損失関数のすべての要素は 4 点座標によって決定できます。換算式は次のとおりです。

ここで、|C| は、BgtBprdをカバーする最小の閉じた長方形領域を表し、 ( x c gt , y c gt)および( x c prd , y c prd) は、真の境界ボックスと予測された境界の中心点の座標を表します。それぞれボックス。wgthgt は実際の境界ボックスの幅と高さを表し、wprdhprd は予測された境界ボックスの幅と高さを表します。

式 (10) から (12) から、非重なり領域、中心点の距離、幅と高さの偏差など、既存の損失関数で考慮されるすべての要素は、次の座標によって決定できることがわかります。左上の点と右下の点は、私たちが提案したLMPDIoUが思慮深いだけでなく、計算プロセスを簡素化していることを示しています。

定理 3.1 によると、予測された境界ボックスとグランド トゥルースの境界ボックスのアスペクト比が同じである場合、グランド トゥルースの境界ボックス内の予測された境界ボックスのLMPDIoU値は、グランドトゥルースの外側の予測ボックスの LMPDIoU 値よりも低くなります。境界ボックス。この機能により、境界ボックス回帰の精度が保証され、予測された境界ボックスの冗長性が低くなります。

図 3:提案するLMPDIoUのパラメータ

図 4: アスペクト比は同じだが幅と高さが異なる、予測されたバウンディング ボックスと真のバウンディング ボックスの例。ここで、k>1、k ∈R。緑のボックスが真のバウンディング ボックス、赤のボックスが予測されたボックスです。

定理 3.1. 真の境界ボックスを B gtとして定義し、2 つの予測境界ボックスを B prd 1および B prd 2として定義します入力イメージの幅と高さはそれぞれwhです。B gt、B prd 1 、B prd 2の左上と右下の座標が( x 1 gt , y 1 gt , x 2 gt , y 2 gt ) 、( x 1 prd 1, y 1 prd 1, x 2 prd 1、y 2 prd 1)および (x 1 prd 2, y 1 prd 2, x 2 prd 2, y 2 prd 2)の場合、 B gt、 B prd 1 、および B prd 2の幅と高さは次のように表すことができます ( w gt = y 2 gt - y 1 gt , w gt = x 2 gt - x 1 gt )および ( w prd 1= y 2 prd 1- y 1prd 1、w prd = y 2 prd 1- y 1 prd 1および ( w prd 2= y 2 prd 2- y 1 prd 2、w prd = y 2 prd 2- y 1 prd 2) w prd 1= k * w gth prd 1= k * hgtの場合w prd 2=1 k * wgt , h prd 2=1 k * wgt、ここでk >1およびkN *です

B gt、B prd 1 、および B prd 2の中心点はすべて重なっています。次に、GIoU (B gt , B prd 1) = GioU (B gt , B prd 2) DIoU (B gt , B prd 1) = DIoU (B gt , B prd 2) , CIoU (B gt , B prd 1) となります。 = CIoU (B gt , B prd 2) EIoU (B gt , B prd 1)=EIoU (B gt , B prd 2)ですが、MPDIoU B gt ,B prd 1> MPDIoU B gt , B prd 2です。

実際のバウンディング ボックスを考慮すると、 B gtはゼロより大きい面積を持つ長方形です。つまり、A gt >0です。Alg. 2(1) と Alg. 2(6) の条件はそれぞれ、予測領域 Aprdと Alg . 2(6) が確実になります。交差領域Iは非負の値 . 、つまりA prd≥0およびI≥0B prd R4です。したがって、結合領域μ>0 ; 予測された境界ボックスB prd = x 1 prd , y 1 prd , x 2 prd , y 2 prd R4について。これにより、出力の予測値に対して IoU の分母がゼロになることがなくなります。さらに、Bの場合prd = x 1 prd, y 1 prd , x 2 prd , y 2 prd R4の任意の値において、和集合領域は常に交差領域よりも大きくなります。つまり、μIです。したがって、LMPDIOU は常に有界です。つまり、0≤ L MPDIoU ≤3、B prd R4です。

IoU=0のLMPDIoUの場合: MPDIoU損失の場合、 L MPDIoU = 1- MPDIoU =1+ d 1 2 d 2 + d 2 2 d 2 - IoUなりますBgtBprd がオーバーラップしない場合、つまりIoU=0の場合、MPDIoU 損失はL MPDIoU =1- MPDIoU =1+ d 1 2 d 2 + d 2 2 d2単純化できます。この場合、LMPDIoU を最小化することにより、実際にはd 1 2が最小化されます。d 2 + d 2 2 d2この項は、0 と 1 の間の正規化された尺度、つまり0≤ d 1 2 d 2 + d 2 2 d 2 ≤ 2です。

4.実験結果

新しい境界ボックス回帰損失L MPDIoUを、最も一般的な 2D オブジェクト検出器やYOLO v7 [ 6] や YOLACT [26] などのインスタンス セグメンテーション モデルに組み込んで評価しますこの目的のために、デフォルトの回帰損失をLMPDIoUに置き換えます。つまり、YOLACT [26] のl 1-smoothとYOLO v7 [6] のLCIoUを置き換えますまた、ベースライン損失をLGIoUと比較しました。
 

4.1 実験のセットアップ

実験環境をまとめると、メモリは32GB、OSはWindows 11、CPUはIntel i9-12900k、グラフィックスカードはNVIDIA Geforce RTX 3090、メモリは24GBです。公平な比較を行うために、すべての実験は PyTorch [54] を使用して実装されました。

 4.2 データセット

すべてのオブジェクト検出とインスタンス セグメンテーションのベースラインをトレーニングし、PASCAL VOC [10] および Microsoft Common Objects in Context (MS COCO 2017) [11] の課題という 2 つの標準ベンチマークですべての結果を報告します。トレーニング プログラムと評価の詳細は、それぞれの章で説明されています。
PASCAL VOC 2007&2012: PASCAL Visual Object Classes (VOC) [10] ベンチマークは、分類、オブジェクト検出、セマンティック セグメンテーション用の最も広範なデータセットの 1 つであり、約 9963 枚の画像が含まれています。トレーニング データ セットとテスト データ セットはそれぞれ 50% を占め、20 の事前定義されたカテゴリのオブジェクトに水平境界ボックスの注釈が付けられます。インスタンスのセグメンテーションに使用される画像サイズが小さいため、パフォーマンスが低下するため、インスタンスのセグメンテーション結果のトレーニングには MS COCO 2017 のみを使用します。
MS COCO: MS COCO [11] は、画像キャプション、オブジェクト検出、インスタンス セグメンテーションに広く使用されているベンチマークです。これには、80 カテゴリからの 500,000 以上の注釈付きオブジェクト インスタンスの 20 以上のトレーニング、検証、テスト セットが含まれています。
IIIT5k: IIIT5k [12] は、文字レベルの注釈を備えた人気のあるシーン テキスト認識ベンチマークであり、インターネットから収集された 5000 個のトリミングされた単語画像が含まれています。文字のカテゴリには、英語の文字と数字が含まれます。トレーニング用の画像は 2000 枚、テスト用の画像は 3000 枚あります。
MTHv2: MTHv2 [13] は、文字レベルの注釈を備えた人気のある OCR ベンチマークです。漢字の種類には、簡体字中国語と繁体字中国語があります。3,000 以上の中国の歴史文書の画像と 100 万以上の漢字が含まれています。

 4.3 評価指標

このペーパーでは、MS COCO 2018 Challenge [11] と同じパフォーマンス メトリクスを使用して、真陽性と偽陽性を判断するための特定の IoU しきい値に対するさまざまなクラス ラベルの平均精度 (mAP) を含むすべての結果を測定します。実験で使用した物体検出の主なパフォーマンス指標は、精度と [email protected]:0.95 です。AP75 の表に示されているように、IoU しきい値の mAP 値 0.75 が報告されます。たとえば、セグメンテーションの場合、実験で使用される主なパフォーマンス メトリクスは AP と AR です。これらは、さまざまな IoU しきい値、つまり IoU = {.5,.55, …, .95}での平均 mAP と mAR です

すべてのオブジェクト検出とインスタンス セグメンテーションのベースラインも、MS COCO 2017 および PASCAL VOC 2007&2012 のテスト セットを使用して評価されます。結果は次のセクションで示されます。

4.4 ターゲット検出実験結果

トレーニング戦略。[6] によってリリースされた YOLO v7 のオリジナルのダークネット実装を使用しました。ベースライン結果 (GIoU 損失でトレーニング) については、すべての実験のバックボーンとして DarkNet-608 を選択し、報告されたデフォルト パラメーターと各ベースラインの反復数を使用してそのトレーニング戦略に厳密に従います。GIoU、DIoU、CIoU、EIoU、および MPDIoU 損失を使用して YOLO v7 をトレーニングするには、バウンディング ボックス回帰 IoU 損失を、2 で説明した LGIoU 、 LDIoU 、 LCIoU 、LEIoUおよびLMPDIoU損失置き換えるだけです

図 5: MS COCO 2017[11] および PASCAL VOC 2007[10] テスト セット、YOLO v7[6]で (左から右に) LGIoULDIoULCIoULEIoUおよびLMPDIoU損失を使用してトレーニングされた物体検出結果。

表 1:自己損失LGIoULDIoULCIoULEIoU 、およびLMPDIoU損失を使用してトレーニングされた YOLO v7 [6] のパフォーマンスの比較。結果はPASCAL VOC 2007&2012のテストセットで報告されています

図 6: LGIoULDIoULCIoULEIoU 、およびLMPDIoU損失を使用してPASCAL VOC 2007 および 2012 [10] で YOLO v7 [6] をトレーニングした場合の bbox 損失と AP 値。

元のコードのトレーニング方法に従って、データセットのトレーニング セットと検証セットの各損失を使用して、最大 150 エポックまで YOLOv7 [6] をトレーニングします。トレーニング時間を短縮し、最高のパフォーマンスのモデルを保存するために、早期停止メカニズムの忍耐力を 5 に設定しました。損失ごとに最適なチェックポイントを使用したパフォーマンスは、PASCAL VOC 2007&2012 のテスト セットで評価されます。結果を表1に示す。

4.5 キャラクターレベルのシーンテキスト認識の実験結果

トレーニング方法。物体検出実験でも同様のトレーニング スキームを使用しました。元のコードのトレーニング プロトコルに従って、最大 30 エポックのデータセットのトレーニング セットと検証セットの各損失を使用して YOLOv7 [6] をトレーニングしました。

損失ごとに最適なチェックポイントを使用するパフォーマンスは、IIIT5K [12] および MTHv2 [55] のテスト セットを使用して評価されます。結果を表2および表3に示す。

図 7: IIIT5K [12] テスト セットで (左から右に) LGIoULDIoULCIoULEIoU 、およびLMPDIoU損失を使用してトレーニングされた YOLOv7 [6] の文字レベルのシーン テキスト認識結果。

表 2:自己損失LGIoULDIoULCIoULEIoU 、およびLMPDIoU損失を使用してトレーニングされた YOLO v7 [6] のパフォーマンスの比較。結果は、IIIT5K テスト セットで報告されます。

表 3:自己損失LGIoULDIoULCIoULEIoU 、およびLMPDIoU損失を使用してトレーニングされた YOLO v7 [6] のパフォーマンスの比較。結果は MTHv2 テスト セットで報告されており、表 2 と表 3 の結果から、回帰損失としてLMPDIoUを使用すると、 LGIoULDIoULCIoULEIoUなどの既存の回帰損失と比較して、YOLO v7 をトレーニングすると、パフォーマンスが大幅に向上します。私たちが提案するLMPDIoU は、キャラクターレベルのシーンテキスト認識で優れたパフォーマンスを発揮します。

4.6 インスタンス分割の実験結果

トレーニング方法。カリフォルニア大学によってリリースされた YOLACT [26] の最新の PyTorch 実装を使用しました。ベースライン結果 ( LGIoUを使用してトレーニング) については、すべての実験で両方の YOLACT のバックボーン ネットワーク アーキテクチャとして ResNet-50 を選択し、報告されたデフォルト パラメーターと各ベースラインの反復数を使用してそのトレーニング プロトコルに従いますGIoU、DIoU、CIoU、EIoU、および MPDIoU 損失を使用して YOLACT をトレーニングするには、最後の境界ボックス調整段階で ℓ1-smooth を、 2 で説明したLGIoULDIoULCIoULEIoU 、およびLMPDIoU損失に置き換えます。YOLO v7 実験と同様に、境界ボックス回帰の元の損失関数を提案したLMPDIoUに置き換えます。

図 8(c) に示すように、回帰損失としてLGIoULDIoULCIoUおよび LEIoUを使用すると、MS COCO 2017 での YOLACT のパフォーマンスをわずかに向上させることができます。ただし、異なる IoU しきい値、つまり 0.5 ≤ IoU ≤ 0.95 に対して異なるマスク AP 値を視覚化したLMPDIoU を使用したトレーニングの場合と比較すると、改善は明らかです

上記の実験と同様に、既存の損失関数に対する回帰損失としてLMPDIoUを使用すると、検出精度を向上させることができます。表 4 に示すように、私たちが提案したLMPDIoU は、ほとんどのメトリクスで既存の損失関数よりも優れたパフォーマンスを発揮します。ただし、異なる損失間の改善量は以前の実験よりも小さくなります。これはいくつかの要因によって引き起こされる可能性があります。まず、YOLACT [26] の検出アンカー ボックスは YOLO v7 [6] よりも高密度であるため、重複しないバウンディング ボックスなど、LMPDIoUが LIoU よりも優れているシナリオが少なくなります。第二に、バウンディングボックス回帰の既存の損失関数はここ数年で改善されました。つまり、精度の向上は非常に限られていますが、効率を向上させる余地はまだたくさんあります。

図 8: LGIoULDIoULCIoULEIoU 、およびLMPDIoU損失と、さまざまな IoU しきい値でのマスク AP 値を使用して、MS COCO 2017 [11]で YOLACT [26] の反復をトレーニングした場合の bbox 損失とボックス AP 値

図 9: YOLACT [26] のLGIoU LDIoU LCIoU LEIoU 、およびLMPDIoU損失を(左から右に) 使用した、MS COCO 2017 [11] および PASCAL VOC 2007 [10] テスト セットのインスタンス セグメンテーションの結果。

また、異なる回帰損失関数の下で、YOLACT トレーニング中のバウンディング ボックス損失と AP 値の変化傾向を比較しました。図 8(a) および (b) に示すように、トレーニングにLMPDIoUを使用すると、ほとんどの既存の損失関数LGIoUおよびLDIoUよりも優れており、精度が高く、収束速度も速くなります。境界ボックスの損失と AP 値は大きく変動しますが、私たちが提案したLMPDIoU はトレーニング終了時のパフォーマンスが向上します。インスタンス セグメンテーション境界ボックス回帰におけるさまざまな損失関数のパフォーマンスをよりよく明らかにするために、図 5 と図 9 に示すように、いくつかの視覚化結果を提供します。LGIoULDIoULCIoU、およびLEIoUと比較して、LMPDIoUに基づいて冗長性が低く、高精度のインスタンス セグメンテーション結果が提供されることがわかります。

表 4: YOLACT [26] のインスタンス セグメンテーションの結果。LGIoULDIoULCIoULEIoUを使用してモデルを再トレーニングし、MS COCO 2017 のテスト セットで結果を報告します [11]。トレーニング中の FPS と時間を記録します

5。結論

このペーパーでは、2 つの境界ボックスを比較するための最小点距離に基づく MPDIoU メトリックを紹介します。この新しいメトリクスは、計算を簡素化しながら、既存の IoU ベースのメトリクスの魅力的な特性をすべて備えていることを実証します。2D/3D ビジョン タスクのすべてのパフォーマンス測定において、これはより良い選択となります。

また、境界ボックス回帰のためのLMPDIoUと呼ばれる損失関数も提案します。一般的に使用されるパフォーマンス メトリクスと当社が提案する MPDIoU を使用して、最先端のオブジェクト検出およびインスタンス セグメンテーション アルゴリズムに適用し、PASCAL VOC、MS COCO などの一般的なオブジェクト検出、シーン テキスト認識、インスタンス セグメンテーション ベンチマークのパフォーマンスを向上させます。 、MTHv2 および IIIT5K でのパフォーマンス)。メトリックの最適な損失はメトリックそのものであるため、MPDIoU 損失は、2D バウンディング ボックス回帰を必要とするすべてのアプリケーションの最適なバウンディング ボックス回帰損失として使用できます。

将来の作業として、シーンテキスト認識、人物の再識別など、ターゲット検出とインスタンスセグメンテーションに基づいたいくつかの下流タスクでさらなる実験を実施したいと考えています。上記の実験を通じて、提案した損失関数の一般化能力をさらに検証できます。

おすすめ

転載: blog.csdn.net/weixin_53660567/article/details/132657892