目次
序章
周知のように、ディープラーニングは AlexNet 時代以降、GPU の計算能力の向上と大規模データの増加を背景に、新しいネットワーク モデルを次々と提案してきました。これらのモデルには共通点がありSOTA
、それはCVサークルで「アイデアは安い、SOTAを見せて!」という有名な言葉があるほどです。そのため、最近では、論文を送りたい場合でも、SOTA でない場合、恥ずかしくて提出できません。幸運にもいくつかのトップ カンファレンスに投票できたダウンシードの参加者として、SOTA という言葉が最終的に Paper が受け入れられるかどうかを左右する重要な要素であることを知っています。少なくとも私のようなほとんどの普通の人々にとっては。そうでない場合、xxx のレビュアーはおそらく親切にあなたに挨拶するでしょう。私が見たモデルはあなたのものよりも優れています. 私はより多くの塩を食べました.
しかし、実際には、SOTA モデルは実用的なアプリケーションの最先端でしょうか? 業界に身を捧げてきた学生は、この問題を深く理解している必要があります. いわゆるSOTAモデルのほとんどの実用化への影響は、でたらめです. もちろん、学術コミュニティの場合、ほとんどの人は、特定の公開データ セットに対応するネットワーク構造と方法を設計するだけで済み、最終的に一連のトリックと詳細な調整を組み合わせてデータ セットをオーバーフィットさせれば、作業は完了です。
今日のトピックに戻ると、ディープ ラーニング モデルは通常、トレーニング データとテスト データの独立した同一分布 (iid) を持つ同じ分布から閉じた世界が引き出されるという暗黙の仮定の下で開発およびテストされることがわかっています。配布外 (OOD) の画像を無視すると、目に見えない、または好ましくない表示条件下でパフォーマンスが低下する可能性があります。これは、実際のシナリオでは特に一般的です。つまり、みんながせっせと最適化(調整)したモデルを現実のタスクで使うと、モデルの性能が急激に低下する可能性が高いということです。 、だからGGだけ。
セキュリティ分野を例にとると、都市を考えると、通常、最初に特定のエリアに従って配置されます。現時点では、エリア内の機関銃のすべてのデータを収集し、モデルのバージョンを更新、最適化、テストします. 一般的に言えば、この時点でオンラインになった後の効果は本当に驚くべきものになるでしょう.読んだら好きになる。このとき、あなたの気分は次のようになります。
しかし!フォレスト・ガンプが私たちに言ったように、人生は常に非生産的です:「人生はチョコレートの箱のようなものです。何を手に入れるかは決してわかりません。」ビットの後、同じモデルが一連の不可解で想像を絶する問題に遭遇します。
-
ヲカオ!このTMは私を間違って識別することができますか?
-
NMD、どうしてこれを検出できないのですか?
このとき、画面の前にいるあなたは次のように見えるかもしれません。
あなたの説明を聞いた上司は次
のようになるかもしれません。
この痛ましい経験は、OOD 問題を解決することがいかに重要であるかを教えてくれます。
配布終了
Out of Distribution
、オープン ワールドOOD
での機械学習モデルの安全で信頼性の高い展開のための中心的な課題となっています。実際、セキュリティの分野だけでなく、産業検査や自動運転など多くの分野で、私たちのモデルが新しいシーンのデータセットを保持できるかどうかという問題もあります。もちろん、自然でシンプルな解決策は、新しいシーンからデータを収集し、トレーニングのためにモデルに再度参加することですが、これは明らかに、今日議論しているトピックではありません。今日は主にECCV 2022 が開催するコンテストを紹介します。このコンテストは、トレーニング画像とは異なる分布に従う OOD 画像で典型的なコンピューター ビジョン タスク (つまり、マルチクラス分類、オブジェクト検出など) を解決することを目的としています。まず、OOD シナリオの典型的なケースを簡単に理解しましょう。
OOD 画像の 6 つのケースは次のとおりです。
- 形状: つまり、ターゲットの形状とサイズが大きく変化します。
- 3D ポーズ: つまり、ターゲットの姿勢と向きが大きく変わります。
- テクスチャ: つまり、ターゲットのテクスチャ全体が大幅に変化します。
- コンテキスト: つまり、海底トンネルを走る列車など、ターゲットのコンテキストが大幅に変更されました。
- 天候: 春、夏、秋、冬、雨、雪、ほこり、もやなど、さまざまな天候や気候がターゲットに与える影響。
- オクルージョン: オクルージョンの程度が異なると、ターゲットのセマンティクスもある程度変化します。
さて、この大会の画像分類トラックとターゲット検出トラックのチャンピオンスキームについて説明します。
画像分類トラック
論文:https://arxiv.org/pdf/2301.04795.pdf
コード: https://github.com/hikvision-research/OOD-CV (404 Not Found)
トラック: https://codalab.lisn.upsaclay.fr/competitions/6781#learn_the_details
OOD-CV チャレンジは、分布外の一般化に対処するタスクです。この課題におけるチームのコア ソリューションは、次のように要約できます。
ノイズ ラベル学習は強力なテスト時のドメイン適応オプティマイザーです
パイプライン全体は 2 段階の構造です。つまり、次のとおりです。
- ドメイン一般化のための事前トレーニング段階
- ドメイン適応のためのテスト時間トレーニング ステージ
ここでは、ラベル付けされた生データのみがトレーニング前フェーズで利用され、ラベル付けされていないターゲット データはテスト時のトレーニング フェーズで利用されることに注意してください。具体的には、トレーニング前の段階で、著者Mask-Level Copy-Paste
は形状、ポーズ、コンテキスト、テクスチャ、オクルージョン、および気候変動の 6 つの主要な課題に対する分布外の一般化能力を強化するためのシンプルで効果的なデータ拡張戦略を提案します(上長)。テスト時のトレーニング フェーズでは、事前トレーニング済みのモデルを使用して、ラベルのないターゲット データにノイズの多いラベル ( ) を割り当て、Noisy Label
ノイズの多いラベルの学習Label-Periodically-Updated DivideMix
方法。TTA
と のEnsemble
戦略を統合した後、Hikvision チームのソリューションは現在、OOD-CV チャレンジの画像分類リーダーボードで第 1 位にランクされています。
モチベーション
画像分類タスク用のSSNLLやオブジェクト検出タスク用のSFOD などの既存の研究に続いて、この論文では、強力なテスト時間領域適応オプティマイザ ベースのアイデアである、ノイズの多いラベルベースの学習方法を提案します。
まず、時間領域適応をテストする前に、分布外のデータに適切に一般化する強力なベースライン モデルを事前トレーニングすることが必要な前提条件です。本能的なアプローチは、ソース データに複数の強力なデータ拡張戦略を積み重ねて、複数のドメイン シフトに抵抗することです。この目的のために、著者は従来のデータ拡張に加えて、新しいMask-Level CopyPaste
データ。具体的には、画像レベルのラベルを指定すると、最先端の弱教師付きセマンティック セグメンテーション手法であるMCTformerを使用して、トレーニング データセットの前景オブジェクトをImageNet-1K
セグメント化します。ROBIN
このようにして、3 つの異なる解を得ることができます。
- シェイプ、ポーズ、およびテクスチャ ドメイン オフセットについては、アフィン変換とカラー ディザリングを適用して前景オブジェクトを強化できます。
- コンテキストからのドメイン オフセットについては、タスクに関連する前景オブジェクトをタスクに依存しない画像に貼り付けます。
- オクルージョン ドメイン シフトでは、タスクに依存しない前景オブジェクトをタスクに依存する画像に貼り付けることができます。
次に、モデルが事前トレーニングされた後、事前トレーニングされたモデルを使用して、ノイズ ラベルと見なすことができる新しい疑似ラベルをターゲット データ セットに追加できます。そのような場合、DivideMixなどの既存のノイジー ラベル学習メソッドは、時間的適応をテストするために当然使用されます。したがって、この課題では、著者は、LabelPeriodically-Updated DivideMix
ノイズの多いラベルの過剰適合を回避しながら、ノイズの多いラベルを時間内に修正できる方法を提案しています。
最後に、テスト時間拡張 (TTA) およびモデル アンサンブル (Model Ensemble) 戦略をさまざまなハイパーパラメーターと統合した後、私たちのソリューションは、最終的に OOD-CV チャレンジの画像分類リーダーボードで 1 位にランクされました。
方法
マスクレベルのコピー&ペースト
Mask-Level Copy-Paste
この提案は、主に OOD のいくつかの困難な問題を解決するために使用されます。具体的なアプローチは、ImageNet-1K および ROBIN トレーニング データセットの画像レベル ラベルを使用して弱教師ありセマンティック セグメンテーション (WSSS) モデルをトレーニングし、このモデルを通じて画像内の前景オブジェクトをセグメント化することですMCTformer
。著者はYOLOv5フレームワークに基づいた弱教師付きターゲット検出方法も紹介しました. 興味のある読者は公式アカウント「CVHub」の歴史的な記事も読むことができます. マスクレベルの見通しは誰が言ったのですか?
ここで、カテゴリ ラベルがこの課題のタスクに関連しているかどうかに応じて、前景オブジェクトを 2 つのタイプに分けることができます。
- タスク関連部品(タスク関連)
- タスクに関係のない部分(タスクと無関係)
同様に、ImageNet-1K および ROBIN トレーニング データセットからの画像も、タスク関連部分とタスク非依存部分に分割できます。このように、上記の 3 つの異なるスキームを使用して、さまざまなドメイン転送の問題を軽減できます。AutoAug
最後に、 、 、CutMix
およびルールベースの気象シミュレーション手法を含む他のデータ拡張戦略と積み重ねることで、強力なドメイン一般化能力を持つ事前トレーニング済みモデルを取得できます。
著者の推奨事項: このソリューションのデータ拡張戦略は、日常の開発タスクにも適用できます. たとえば、学生は、さまざまな気象条件下でデータをシミュレートする方法をよく尋ねます.
レーベル定期更新DivideMix
ここで, 著者は, テストの時間領域適応をノイズの多いラベル学習問題と見なしています. 具体的な方法は, 前のステップで導入した事前トレーニングモデルを使用して, テストセットのデータにラベルを付けることです. これらのラベル情報はノイズと見なすことができます.ラベル (結局のところ、モデルは 100% 正確ではありません)。
次に、ノイズ ラベルを取得した後、DivideMix
のlabel-periodically-updated
ラベルを変更すると、ノイズ ラベルが時間内に修正され、ノイズ ラベルのオーバーフィッティングが回避されます。さらに、元の とDivideMix
は異なり、MixMatch
一般的な強力および弱い拡張戦略がコンポーネントで採用されています。これは、疑似ラベル付けに弱い拡張を使用し、モデルの最適化に強力な拡張を使用します。特定の Pilepie は、次の図を参照できます。
最後に、特定の技術的詳細と実験パラメーターについては、興味のある学生は元のテキストを参照できます。ここでは詳しく説明しませんが、以下も同様です。
物体検出トラック
論文:https://arxiv.org/pdf/2301.04796.pdf
コード: https://github.com/hikvision-research/OOD-CV (404 Not Found)
トラック: https://codalab.lisn.upsaclay.fr/competitions/6784#learn_the_details
物体検出トラックの OOD 問題を解決するために、このスキームはシンプルだが効果的なGeneralize-then-Adapt (G&A)
フレームワーク。これは 2 つの部分で構成されます。
- 2 段階のドメイン一般化(
two-stage domain generalization
) - 1 段階のドメイン適応(
one-stage domain adaptation
)
その中で、ドメイン一般化部分は、モデルのウォームアップ用のソース データを使用する教師ありモデルの事前トレーニング段階と、ボックス レベルのラベルが付いたソース データと画像レベルの補助データを使用した弱い半教師ありモデルの事前トレーニングで構成されます ( ImageNet-1K) ステージを使用して、パフォーマンスを向上させるタグを実現します。ドメイン適応部分はパッシブ ドメイン適応パラダイムとして実装されますが、事前トレーニング済みモデルとラベル付けされていないターゲット データのみを使用して、自己教師ありトレーニング方法でさらに最適化されます。
モチベーション
未知のターゲット ドメインにおけるモデルのロバスト性を向上させるために、著者は、ドメイン シフト下でのターゲット検出のモデル劣化問題を解決するためのシンプルでありながら効果的な Generalize-then-Adapt (G&A) フレームワークを提案しています。具体的なプランは以下の通りです。
教師ありモデルの事前トレーニング
Like the classification track, a strong Baseline model can also be training for the domain transfer problem here. このベースラインでは、ラベル付きソース データをさまざまな強力なデータ拡張戦略と共に利用して、潜在的な分布外データをシミュレートできます。
弱い半教師ありモデルの事前トレーニング
以前の研究では、追加の補助トレーニングを使用して、分布外の一般化をさらに強化できることが示されています。したがって、ImageNet-1K は、画像レベルのラベルのみを持つ一種の補助トレーニング データと見なすことができます。このようにして、第 1 段階の事前トレーニング済みターゲット検出器を、ラベル付きソース データ (ボックス レベル ラベルを使用したロビン トレーニング セット) と弱くラベルを付けたソース データ (画像レベル ラベルを使用した ImageNet-1K) でさらに最適化できます。弱い半教師付きターゲット検出です。
ソースフリー ドメインの適応
これは、ソース データにアクセスせずに、ソースの事前トレーニング済みオブジェクト検出器とラベル付けされていないターゲット データのみを利用して、モデルをターゲット ドメインに適合させるテスト時トレーニング用です。このチャレンジでは、 にMean-Teacher
基づいた。
最後に、TTA と Model Ensemble を統合した後の全体的なスキーム ダイアグラムは次のとおりです。
方法
ソース データとターゲット データを共同でトレーニングする従来のドメイン適応方法と比較して、このホワイト ペーパーで提案されている G&A フレームワークは、現実世界のシナリオでより実用的であり、次の図に示すように、共同トレーニング パラダイムを分離します。
ドメインの一般化フェーズではソース データのみが使用され、テスト時ドメインの適応フェーズではターゲット データのみが使用されることがわかります。次の 2 つの問題を回避するには:
- データ拡張伝送
- データのプライバシー漏洩
G&A フレームワークでは、ソース データを交換せずに事前トレーニング済みのモデル転送のみが許可されます。一般化ステップは通常、サーバー側で実行されますが、適応ステップは通常、モデルの自己進化を達成するためにクライアント側で実行されます。
実際、上記の2つのステップは、上流と下流の操作と見なすことができます。ただし、OOD コミュニティの既存の作業は、通常、ドメインの一般化ステップまたはテスト時のドメイン適応ステップのいずれかに焦点を当てており、2 つのステップを統合することはありません。したがって、著者は、このチャレンジ リーダーボードの優れたソリューションが、コミュニティがこれら 2 つのステップを統合して、ドメイン転送下でのモデルの劣化の問題にさらに抵抗する方法に注意を払うよう促すことを願っています。これは非常に参照に値します。
注: OOD に関心のある学生は、ECCV 2022 によって発行されたこのOOD-CVなど、この分野の関連文献を読むこともできます。
要約する
この記事の冒頭で、鮮やかな事例を通じて OOD タスクの重要性を紹介し、その後、コンピューター ビジョンにおけるドメイン外分散の一般化について、今日の主役を拡張しました。同時に、ECCV 2022 OOD-CV チャレンジの画像分類とオブジェクト検出トラックのチャンピオン ソリューションについて簡単に説明できることを光栄に思います。
人工知能やコンピューター ビジョンのフルスタック分野にも興味がある場合は、有益で興味深い、愛情深いパブリック アカウント「CVHub」に注目することを強くお勧めします。フィールド、および詳細な最先端の科学論文を毎日解釈し、産業用の成熟したソリューションを提供します! 編集者の WeChat アカウントを追加することを歓迎します: cv_huber、「CSDN」とコメントし、CVHub 公式の学術および技術交換グループに参加し、より興味深いトピックについて一緒に議論してください!