CVPR2023 高品質紙 | Consistent-Teacher: 半教師ありターゲット検出スーパー SOTA

フォローしてスターを付ける

決して迷わない

コンピュータビジョン研究所

97834409f12a8ceb6ad8f064489d8b86.gif

448c4ee5e8cc8fb18f4e67f197baf419.gif

パブリックアカウントIDComputerVisionGzq

学習会参加方法はホームページのQRコードを読み取ってください

91b33467011b5673498f34162373b861.png

論文アドレス:https://arxiv.org/abs/2209.01589

コンピュータビジョン研究所コラム

著者: Edison_G

「Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection」は、半教師ありオブジェクト検出に関する論文です。この論文では、ラベルの不一致によりトレーニングに導入される間違ったオブジェクトである疑似ターゲットを減らすための「Consistent-Teacher」と呼ばれる新しい方法を提案しています。

1. 概要

この研究では、半教師あり物体検出 (SSOD) における偽の物体の不一致を詳しく調べます。中心的な観察は、振動する偽の物体が正確な半教師あり検出器のトレーニングを損なうということです。これは、学生のトレーニングにノイズを注入するだけでなく、分類タスクの深刻な過剰適合にもつながります。したがって、研究者らは、不一致を減らすために、一貫した教師と呼ばれる体系的な解決策を提案しています。まず、静的 IoU ベースの戦略を Adaptive Anchor Assignment (ASA) に置き換えて、学生ネットワークをノイズの多い疑似バウンディング ボックスに耐性のあるものにします。次に、3D フィーチャー アライメント モジュール (FAM-3D) を設計することによって、サブタスク予測が調整されます。これにより、各カテゴリ特徴が、任意のスケールと位置での回帰タスクに最適な特徴ベクトルを適応的にクエリできるようになります。最後に、ガウス混合モデル (GMM) は擬似ボックスのスコアしきい値を動的に変更し、グラウンド トゥルースの数を安定させます。

94a607b9947473c03cdc31d82d9783c3.png

2. 動機

この研究で研究者らは、半教師あり検出器の性能は依然として偽のオブジェクトの不一致によって大きく妨げられていることを指摘している。一貫性がないということは、疑似ボックスが非常に不正確であり、トレーニングのさまざまな段階で大きく異なる可能性があることを意味します。したがって、一貫性のない振動バウンディング ボックス (bbox) は、SSOD 予測で累積誤差を引き起こす可能性があります。半教師あり分類とは異なり、SSOD には、高密度監視として各 RoI/アンカーに一連の疑似ボックスを割り当てる追加のステップがあります。一般的な 2 段階および 1 段階の SSOD ネットワークでは、IoU スコアや中心性などの静的なアンカー割り当て基準が採用されています。偽の境界ボックス内の小さな摂動が割り当て結果に大きな影響を与える可能性があるため、静的割り当ては教師によって予測された境界ボックス内のノイズに敏感であることが観察されています。したがって、ラベルのない画像では深刻な過剰適合が発生します。

この現象を検証するために、MS-COCO 10% データに対する標準の IoU ベースの割り当てを使用して単一ステージ検出器をトレーニングします。以下の図に示すように、教師の出力の小さな変化により、疑似ボックスの境界に強いノイズが発生し、IoU ベースの静的割り当てでは、誤ったオブジェクトが近くのオブジェクトに関連付けられます。これは、一部の非アクティブなストリーマーが、学生ネットワーク内で誤ってポジティブとして割り当てられたためです。その結果、隣接するオブジェクトに対して一貫性のないラベルが生成されるため、ネットワークはオーバーフィットします。ラベルのない画像の分類損失曲線でも過学習が観察されます。

一貫性がないということは、疑似ボックスが非常に不正確であり、さまざまなトレーニング段階で大きく異なる可能性があることを意味します。

61428313cb10a9d5a9cde564d8a5cc28.jpeg

動機: SSOD に対する一貫性のなさ

(左) 「平均的な教師」と「一貫した教師」のトレーニング損失を比較。Mean-Teacher では、一貫性のない疑似ターゲットにより分類ブランチでの過剰適合が発生し、回帰損失が収束することが困難になります。代わりに、新しく提案された方法は、生徒に一貫した最適化目標を設定し、2 つのタスクのバランスを効果的に高め、過剰適合を防ぎます。

(右) 擬似ラベル付けと割り当てのダイナミクスのスナップショット。緑と赤のボックスは、シロクマの真の値と偽の値を示します。赤い点は、疑似ラベル用に指定された位置決めボックスです。ヒートマップは、教師の予測に対する高密度の信頼スコア (より明るく、より大きい) を表します。ベースラインでは近くの板がシロクマとして誤分類されてしまいますが、提案された適応割り当てにより過剰適合が防止されます。

3. 実験と結果

私たちの取り組みは SSOD の不一致に対処しています。トレーニング中のさまざまなタイム ステップでのサンプル検出結果をいくつか示します。

: 偽陽性。 : 真のポジティブ。 : グラウンドトゥルース

5241ab724f17754b5a3479dc29d8187a.gif

意地悪な先生

4437eea936dc519f4076454f3b77ac10.gif

一貫した教師

aee30b9072b240c6e08c9dafd5313f8d.gif

意地悪な先生

924ffe6d8df02ef1cfb4c6c767abef01.gif

一貫した教師

593e59a003383b3f89bb97d3a3f7284a.png

© ジ・エンド 

転載の際はこちらの公式アカウントにご連絡の上、許可を得てください。

038df8f3143881d5875ce81dc5802aa6.gif

コンピュータビジョン研究所研究会は皆様のご参加をお待ちしております!

だいたい

コンピュータビジョン研究所

コンピュータビジョン研究所は主にディープラーニングの分野に携わっており、顔検出、顔認識、複数ターゲット検出、ターゲット追跡、画像セグメンテーションなどの研究方向に主に取り組んでいます。研究機関は今後も最新の新しい論文アルゴリズムフレームワークを共有していきますが、今回の改革で異なるのは「研究」に重点を置く必要があることです。その後、該当分野の実践的なプロセスを共有することで、誰もが理論を取り除く実際の現場を実際に体験し、プログラミングと頭脳思考を愛する習慣を養います。

VX:2311123606

81dbe8606df49103ef17682c1d5b88dc.png

過去の推薦

おすすめ

転載: blog.csdn.net/gzq0723/article/details/130959728