論文のダウンロード: https://zdzheng.xyz/files/TIP_Adaboost.pdf
バックアップ: https://arxiv.org/pdf/2103.15685.pdf
著者: Zhedong Zheng 、Yi Yang
コードリンク: GitHub -layumi/AdaBoost_Seg: TIP2022 Adaptive Boosting (AdaBoost) for Domain Adaptation ? なぜダメなのか!
何:
- 「困難な」サンプルは、ドメイン アダプテーション セマンティック セグメンテーション モデルにとって特に重要です。たとえば、都市景観の「電車」カテゴリには比較的少ないシーンがあります。当然のことながら、「都市景観」の電車予測も特に不十分です。その結果、モデルのジッターは各トレーニングで特に大きくなり、異なるエポック (データ シャッフル順序の違いなどの要因) によって、テスト セットのパフォーマンス ギャップが大きくなる場合があります。
- したがって、困難なサンプル マイニングを考慮すると、Adaboost を使用するという非常に自然なアイデアになります。これは、私の以前の顔検出ビジネスで最も効果的な戦略の 1 つです。それは具体的に見ることができます ( Zheng Zhedong: AdaBoost Notes ) おそらく、前回の「弱分類器」に基づいて、次のラウンドで何を学習するかを毎回決定することを意味します。顔検出では、前の分類器で誤分類されたサンプルに基づいて、ターゲットを絞った最適化が実行されます。
- したがって、この記事では、Adaboost の概念に基づいて、ドメイン適応のタスクに対して Adaptive Boosting を実行するという非常に単純なことを行います。以下の図に示すように、トレーニング プロセスのスナップショット (弱分類器とみなすことができます) によれば、困難なサンプルが「選択」の対象となり、サンプルされる確率が増加します。
方法:
- 実際、このアイデアは、ソース ドメインでのセグメンテーション損失といくつかの正則化 (2 つのドメイン間のギャップを狭めるための敵対的損失など) を使用した、以前のモデル トレーニング方法に従うことです。
- この方法により、ラウンドごとにモデルをトレーニングして弱いモデルを取得することができ (これはすべて 1 回のトレーニング セッションで行われます)、重み移動平均を通じて生徒の集計 (「靴屋で構成された諸葛孔明」) を取得できます。
- 「諸葛孔明」の主分類子と補助分類子が一致しないサンプルに基づいて サンプルの難易度を推定します。以下に示すように、
4. 推定された予測KL差 (サンプル難易度) Vkl を通じて、ターゲット ドメインのサンプラーを更新し、より難易度の高いサンプルを収集します。 サンプリング方法を次のように更新します: (ここでは、Vkl で Softmaxを実行して、すべてのサンプルの確率合計が1 になるようにします。)
5. 実際、「靴屋で構成された諸葛孔明」の方法 は非常に単純 で、 モデルパラメータの平均化であり、学習プロセス中に単純な動的 公式を使用しました。靴屋が入ってくる前に靴屋が倒れ、新しい靴には平均的な重さが与えられます。
実験:
- 困難なサンプル サンプリング戦略を使用するだけでは、単一のモデルをより適切にトレーニングできるとは保証できないことに注意してください。Adaboost と同様に、補完モデルを取得するためにモデルをハード サンプルにオーバーフィットさせるため、この単一モデルを単独で使用した場合の方が必ずしも優れているとは限りません。同様の結論が得られました。ハード サンプルだけでは 48.1 しかありませんでしたが、モデルを組み合わせた場合は 49.0 でした。同時に、モデルの組み合わせのみの場合、正解率は約 48.4 になります。
2. 弱いモデルの組み合わせのおかげで、トレーニング プロセスは比較的安定しています。点線の従来のソリューションと比較して 、結合モデルがより安定していることは明らかです。
3. 同時に、 いくつかの ベンチマーク でも相対的な改善が見られました(これはもはやsota ではありません。最新のsota は、私たちの別の作業に注目することができます: GitHub - chen742/PiPa: PiPa の公式実装: ピクセルとパッチドメイン適応型セマンティック セグメンテーションのための -wise 自己教師あり学習 )
4. さらに、私たちが提案した方法は、 従来のVGG16backboneにも機能します。
5. MeanTeacherとの比較も行いました。 教師と生徒の蒸留損失 を導入しなかったため、代わりにこれにより単一モデルの相補性が確保されます。Cifar10 の同じネットワーク構造に基づいて、MeanTeacher よりも上位にあります 。
最後に、読んでいただきありがとうございます。いいねと転送を歓迎します~~そして私の他の記事にも注目してください