[ターゲット検出] AAAI20 - バウンディング ボックス回帰の改善「距離 IoU 損失: バウンディング ボックス回帰のより高速かつ優れた学習」

記事ディレクトリ

最初の知り合い

ターゲット検出フレームには、セグメンテーションと位置決めという 2 つのタスクがあります。位置決めタスクに使用される損失は通常、 l n l_n n パラダイムですが、この形式の損失は最良の選択ではありません (最適な IoU 指標を達成できません)。 IoU を損失として直接使用できますか?その損失関数の形式は次のとおりです。

ここに画像の説明を挿入します
は問題の指標を直接最適化するので良さそうですが、実際には IoU 損失の適用範囲は限られており、 gt が予測ボックスと重なっている場合にのみ有効です。なぜなら、2 つのボックスが重なっていない場合、どれだけ離れていても値は常に 0 となり、ネットワーク更新に効果的な勾配を提供できないからです。

したがって、2019 年の CVPR カンファレンスで GIoU 損失が提案され、次のように IoU 損失に追加の損失期間が追加されました。
ここに画像の説明を挿入します
ここで B ∪ B g t B∪B^{gt} BBgt はそれぞれ予測ボックスと GT の結合を表し、C は最小外接値を表します。 2 つの長方形の領域 (囲まれた領域)。 GIoU 損失を使用した後、2 つのボックスが重ならない場合、損失もそれらの間で計算され、距離が遠いほど損失値は大きくなります、最適化が方向性を提供するため。

これでいいですか?どのような状況であっても最適化することができます。しかし、著者は実験を通じて、GIoU には依然として制限があり、一部の特殊なケースではパフォーマンスが低下し、収束が非常に遅いことを発見しました。この記事で提案する DIoU 損失は、これらの問題を解決することができ、2 つのボックス中心間の正規化された距離を直接最小化する新しい損失項を提案します ここで ρ \rho
ここに画像の説明を挿入します
ρ はユークリッド距離を表します。 c c c は、次の図に示すように、2 つのボックス間の対角線の長さです。
ここに画像の説明を挿入します
著者は、以下に示すような小さな実験を行いました。緑色のボックスは GT を表し、黒いボックスは予測ボックスを表します (anchor) において、青いボックスは GIoU 損失最適化によって得られた結果を示し、赤いボックスはこの記事で提案する DIoU 損失最適化によって得られた結果を示します。図からわかるように、GIoU 損失は、まずターゲット ボックスと重なるように予測ボックスのサイズを大きくする方法を見つけ、次に、予測ボックスの重なり合う領域を最大化します。境界ボックス [IoU損失に劣化]。 DIoU 損失は 2 つのボックス間の距離を直接最適化し、より高速に収束できます (120 エポック)。

ここに画像の説明を挿入します
さらにアスペクト比情報を導入することができ、収束をさらに加速してパフォーマンスを向上させるために、 DIoU に基づいて CIoU(Complete IoU) 損失が提案されます。またDIoU は NMS の評価指標としても使用できるため [オーバーラップ率を計算するために IoU を置き換える] ため、オクルージョンに対してより堅牢になります。 DIoUCIoU は現在の SOTA 検出方法に簡単に組み込むことができ、著者の実験ではさまざまなネットワークやデータ セットでの改善が実証されています。

友人

IoU および GioU 損失のさらなる分析

この実験は非常に興味深いもので、元の記事のこの段落を読むことができます: 簡単に言うと、いくつかの検出フレームとターゲット フレームを事前に設定し、異なる損失を使用してそれらを最適化し、分析のために損失情報をカウントすることを意味します。

ここに画像の説明を挿入します

著者は、以下の図に示すように、IoUGIoU の欠点を実験によってさらに分析しました (x,yは、それぞれの候補ボックスの位置、GT の座標が (10,10)、縦軸が loss を表すことを意味します。 IoU損失が大きくなるのは、GT と重なる候補ボックス、GIoU水平方向と垂直方向に重なる候補ボックスの場合のみです。検出フレームが十分に最適化されていません (簡単に IoU Loss に低下しますが、十分なトレーニング ラウンドと適切な学習率があれば、ターゲット フレームに最適化できます) , ただし、これによりトレーニングが非常に遅くなります); そして、この記事で提案されている DIoU は、さまざまな状況の候補ボックスに対して適切に最適化できます。
ここに画像の説明を挿入します
DIoU 損失と GIoU 損失

DIoU の具体的な形式については上記で非常にわかりやすく説明しましたが、IoU の損失に基づいて、GIoU とは異なるペナルティ条件が追加されます。 2 つのボックス間の正規化された中心距離を最適化します。
ここに画像の説明を挿入します
IoU,GIoU [スケール不変性 (検出フレームのサイズを無視) のいくつかの優れた機能を継承し、重複しない状況を処理でき、損失範囲は [ 0,2) (0 は最適、2 は無限を意味します)]、GIoU [収束が遅く、水平/垂直候補フレームの最適化が不十分] に存在するいくつかの問題も解決します。
ここに画像の説明を挿入します
著者は、検出フレーム回帰タスクの場合、優れた損失関数では、オーバーラップ率、中心点距離、アスペクト比の 3 つの側面を考慮する必要があると分析しました。 DIoU最初の 2 つの側面を考慮した上で、著者はアスペクト比の制限をさらに追加し、CIoU損失:
ここに画像の説明を挿入します
ここで を提案します。 a> v v v は、ターゲット ボックスと予測ボックスの間のアスペクト比の一貫性を測定するために使用されます。 α α α は、最適化プロセス中に 重叠率 の優先順位が高くなるように、トレードオフ パラメータを表します。
ここに画像の説明を挿入します
ここに画像の説明を挿入します
もう 1 つ注意すべき点は、最適化プロセス中、 v v v中的 w , h w,h h の勾配計算は次のように指定する必要があります。勾配分散の問題を解決するには、 1 w 2 + h 2 \frac{1}{w^2+h^2} 2+h21 1に設定します。

ここに画像の説明を挿入します
NMS に DIoU を使用する

NMS は、予測結果で重複するボックスを処理するために使用されます。通常は IoU を使用して判断されます (しきい値に従って高いものから低いものまで選択します。各選択後、IoU を除外します)範囲内の他のボックス)。ただし、 IoU を使用するとオーバーラップ率のみが考慮され、オクルージョン状況が十分に処理されず、誤った抑制が発生します。したがって、 DIoUIoU に置き換えることができます。これは、重なり合う領域だけでなく、2 つのフレームの中心間の正規化された距離も考慮されるためです [ a>実験の一部< /span>]:中心点が離れている 2 つの検出フレームは、異なるオブジェクトを検出する可能性があるため、削除しないでください。
ここに画像の説明を挿入します

次の図は、YOLOv3 と Faster RCNN でのさまざまな損失の実験を示しています。損失は CIoU に置き換えられ、DIoU-NMS が追加された後、全体的なパフォーマンスが大幅に向上しました。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

アスペクト比の制約を追加した後、小さなターゲットの検出パフォーマンスは低下しましたが、全体的なパフォーマンスは依然として向上していることがわかります。小型ターゲットの検出には中心点間の距離の方が重要であり、アスペクト比の導入により中心距離の重要性が薄れるため、小型ターゲットの減少も理解できます。

次の図は、COCO データセットでさまざまな損失でトレーニングされた高速 rcnn ネットワークの視覚化効果を示しています。
ここに画像の説明を挿入します
次の図は、通常の NMS と DIoU-NMS の違いを示しています。あ>あ>
ここに画像の説明を挿入します

レビュー

この記事は AAAI2020 で公開されたもので、著者チームは天津大学と中国人民公安大学から来ています。全体的な計画の革新的なアイデアは非常にシンプルで、改善は直感的で理解しやすく、効果は非常に優れています。興味深いのは、著者が多くのシミュレーション実験を行って、現在の計画の問題点を分析していることです。読者がよりよく理解できるように、さまざまな角度から説明します。これは確かに問題であり、提案された方法はそれを正確に解決します。最初から手法や実験結果をそのまま紹介すると、驚かされることはあっても、それほど印象に残るものではないはずです。

この方法はシンプルであり、さまざまな検出モデルに簡単に組み込むことができるため、競技用でも実際の産業用途でも試せるトリックです。

参考

[1] https://zhuanlan.zhihu.com/p/94799295

おすすめ

転載: blog.csdn.net/qq_36560894/article/details/123172176