[论文阅读]オブジェクト検出のためのマルチインスタンスアクティブラーニング

紙のアドレス:https ://openaccess.thecvf.com/content/CVPR2021/html/Yuan_Multiple_Instance_Active_Learning_for_Object_Detection_CVPR_2021_paper.html
コード:https://github.com/yuantn/MI-AOD
公開:CVPR 21
著者の公式分析:https:// zhuanlan.zhihu.com/p/362764637

概要

アクティブラーニングは画像認識において大きな進歩を遂げましたが、オブジェクト検出専用のインスタンスレベルのアクティブラーニング手法はまだ不足しています。本論文では、インスタンスレベルの不確実性を観察することにより、検出器トレーニングのために最も有益な画像を選択するマルチインスタンスアクティブオブジェクト検出(MI-AOD)を提案します。MI-AODは、注釈付きセットでトレーニングされた2つの敵対的なインスタンス分類子の違いを利用して、注釈なしセットのインスタンスの不確実性を予測するインスタンス不確実性学習モジュールを定義します。MI-AODは、ラベルのない画像をインスタンスバッグとして扱い、画像内のフィーチャアンカーをインスタンスとして扱い、マルチインスタンス学習(MIL)方式でインスタンスを再重み付けすることにより、画像の不確実性を推定します。反復的なインスタンスの不確実性の学習と再重み付けは、ノイズの多いインスタンスを抑制するのに役立ち、それによってインスタンスの不確実性と画像レベルの不確実性の間のギャップを埋めます。実験は、MI-AODがインスタンスレベルのアクティブラーニングの確かなベースラインを設定することを示しています。一般的に使用されるオブジェクト検出データセットでは、MI-AODは、特に注釈セットが小さい場合に、最先端の方法を大幅に上回ります。

I.はじめに

この論文は、アクティブラーニングとオブジェクト検出を組み合わせたトップカンファレンスでの数少ない作品の1つです。本文の言葉で言えば、この論文は最初のものです(ただし、ICCV 21で発表された同時作業もあります)。前の作業では、分類タスクに使用される能動学習アルゴリズムは、ターゲット検出のタスク特性を考慮せずに、単純に変更されてからターゲット検出のベンチマークに適用されるため、パフォーマンスは明らかに最適ではありません。このホワイトペーパーでは、主に次の観点から問題を解決します。

1つ目は、各バウンディングボックスの不確実性を評価することです。ここでは、より伝統的な考え方を採用し、2つの異なる分類ヘッドを設計し、2つの分類ヘッドの予測結果の差を比較することによって不確実性を評価します。この分類ヘッドをどのように「異なる」ものにするかについては、具体的な方法は対決訓練の方法を採用することです。このアイデアは、後の「インスタンスの不確実性の最大化」セクションで紹介します。

もう1つの問題は、ラベル付きセット分布とラベルなしセット分布の位置合わせです。2つの間の差が大きすぎる場合、ラベル付きセットでトレーニングされたモデルを使用して、ラベルなしセットの不確実性を判断することは無意味です。この目的のために、この記事では2つを調整することを提案しており、このアイデアはこの記事の「インスタンスの不確実性の最小化」セクションで紹介されます。

最後に、ノイズサンプルの干渉を減らすために、このペーパーでは、重み付けのためのインスタンスの不確実性の再重み付けも提案します。

II。インスタンスの不確実性の最大化

このステップは、アクティブラーニングの必要なプロセス、サンプルの不確実性を評価する方法に対応します。この目的のために、この論文は予測の不一致に基づいてアイデアを選択します。したがって、ここで問題となるのは、同じ入力で異なる出力を生成する方法です。この記事の方法は、追加のインスタンス分類子(次の図のf 1、f 2 f_1、f_2 )をインストールすることです。f1f2):
ここに画像の説明を挿入
ここで、f 1、f 2 f_1、f_2とします。f1f2パラメータが異なります。具体的な方法は、通常のトレーニングが完了した後にggを修正することです。gのパラメーター、 f 1、f 2 f_1、f_2に対して次の逆損失関数を使用f1f2検出器の性能を維持しながら、これら2つのパラメータの差を最大化するために微調整が実行されます。argmin⁡Θ\θgLmax⁡= ∑x∈XLldet(x)− ∑x∈XUλ⋅ldis(x) \ underset {\ Theta \ backslash \ theta_ {g}} {\ operatorname {argmin}} \ mathcal {L} _ {\ max} = \ sum_ {x \ in \ mathcal {X} _ {L}} l_ {det }(x)-\ sum_ {x \ in \ mathcal {X} _ {U}} \ lambda \ cdot l_ {dis}(x)Θ \ θga r g m i nLマックス=x∈X _ _Lld e tx x∈X _ _Uλld is _x ldis(x)= ∑ i ∣ y ^ if 1 − y ^ if 2 ∣ l_ {dis}(x)= \ sum_ {i} \ left | \ hat {y} _ {i} ^ {f_ { 1}}-\ hat {y} _ {i} ^ {f_ {2}} \ right |ld is _x =^f1^f2

III。インスタンスの不確実性を最小限に抑える

インスタンスの不確実性を評価できるようにインスタンス分類子を微調整した後、次の操作は、次の図に示すように、分布を調整することです
ここに画像の説明を挿入
。この段階では、特徴分布情報は主にバックボーンggに関連しているためです。gは相関しているため、固定予測ヘッドfr、f 1、f 2 f_r、f_1、f_2frf1f2ggにg行行微调: argmin⁡θgL min = ∑x∈XLldet(x)+ ∑x∈XUλ⋅ldis(x)\ underset {\ theta_ {g}} {\ operatorname {argmin}} \ mathcal {L } _ {\ text {min}} = \ sum_ {x \ in \ mathcal {X} _ {L}} l_ {det}(x)+ \ sum_ {x \ in \ mathcal {X} _ {U}} \ lambda \ cdot l_ {dis}(x)θga r g m i nL =x∈X _ _Lld e tx +x∈X _ _Uλld is _x 検出性能を確保しながら、分布の差をできるだけ小さくするようにしてください。

IV。インスタンスの不確実性の再重み付け

ターゲット検出の場合、検出器は多くのインスタンスを提供しますが、これらのインスタンスがすべて役立つわけではありません。たとえば、一部のインスタンスは実際には誤検出の背景にすぎないため、インスタンス自体の不確実性が高いかどうかは関係なく、最終的な不確実性は重み付けプロセスを経る必要があります。具体的なプロセスは次のとおりです。

マルチインスタンス学習のアイデアでは、各画像はインスタンスバッグと見なされます。次に、インスタンス分類子fmilf_{mil}を作成します。fm i lパッケージ内の各インスタンスを個別にスコアリングするには:
ここに画像の説明を挿入
このステップには多くの数式が含まれます。簡単にまとめると、このスコアは一般的な不確実性にいくぶん似ています。たとえば、バックグラウンドインスタンスに対応すると、バックグラウンドとして分類される信頼度自体は低くなりますが、フォアグラウンドインスタンスの場合、信頼度は高くなり、それに応じて区別できます。

おすすめ

転載: blog.csdn.net/qq_40714949/article/details/123521609