ICCV 2023 Oral | オープンワールドでテスト セグメント トレーニングを実施するにはどうすればよいですか? 動的プロトタイプ拡張に基づく自己トレーニング方法...

下のカードをクリックして「CVer」公開アカウントをフォローしてください

AI/CVの重要な情報をいち早くお届け

クリックして入力 -> [ターゲット検出と変換] コミュニケーショングループ

転載元: ハート・オブ・ザ・マシーン

本稿ではオープンワールド向けのテストセグメント学習法を初めて提案する。

モデルの一般化能力を向上させることは、視覚ベースの知覚方法の実装を促進するための重要な基盤です。テスト時のトレーニング/適応は、テスト セクションでモデル パラメーターの重みを調整することによって、モデルを未知のターゲット ドメインのデータ分布に一般化します。パート 既存の TTT/TTA 手法は通常、閉ループの世界でターゲット ドメイン データの下でテスト セグメントのトレーニング パフォーマンスを向上させることに焦点を当てています。

ただし、多くのアプリケーション シナリオでは、ターゲット ドメインは、無関係なセマンティック カテゴリ データなどの強力なドメイン外データ (Strong OOD) データによって簡単に汚染されます。このシナリオは、オープンワールド テスト セグメント トレーニング (OWTTT) とも呼ばれます。このシナリオでは、既存の TTT/TTA は通常、強力なドメイン外データを既知のカテゴリに強制的に分類するため、最終的にはノイズ干渉画像などの弱い画像と干渉します。ドメイン外のデータを区別する機能 (弱い OOD)。

最近、華南理工大学とA*STARのチームは初めてオープンワールドテストセグメントトレーニングの設定を提案し、オープンワールドテストセグメントトレーニングの方法を開始しました。

cf4836b7fe2055ff58871414ddbd1c9a.png

CVer WeChat パブリック アカウントのバックグラウンドで返信: OWTTT、この論文の PDF とコードをダウンロードできます

  • 論文: https://arxiv.org/abs/2308.09942

  • コード: https://github.com/Yushu-Li/OWTTT

本稿ではまず、オープンワールドにおける自己訓練TTT法の堅牢性を向上させる、適応閾値による強力なドメイン外データサンプルフィルタリング法を提案する。この方法はさらに、動的に拡張されたプロトタイプに基づいて強力なドメイン外サンプルを特徴付けて、弱い/強いドメイン外データ分離効果を改善する方法を提案します。最後に、自己トレーニングは分布の調整によって制約されます。

このペーパーの方法は、5 つの異なる OWTTT ベンチマークで最適なパフォーマンスを達成し、より堅牢な TTT 方法を探求するための TTT に関するその後の研究に新しい方向性を提供します。この研究は、ICCV 2023 に口頭論文として受理されました。

導入

Training to Test (TTT) は、推論フェーズ中にのみターゲット ドメイン データにアクセスし、分布がシフトしたテスト データに対してオンザフライ推論を実行できます。TTT の成功は、人工的に選択された多数の合成的に破損したターゲット ドメイン データで実証されています。ただし、既存の TTT 手法の機能の限界は十分に調査されていません。

オープンシナリオでの TTT アプリケーションを促進するために、研究の焦点は、TTT 手法が失敗する可能性のあるシナリオの調査に移ってきました。より現実的なオープンワールド環境で安定した堅牢な TTT 手法を開発するために多くの努力が払われてきました。この作業では、ターゲット ドメインに、ソース ドメインとは異なるセマンティック カテゴリや単なるランダム ノイズなど、大幅に異なる環境から抽出されたテスト データ分布が含まれる可能性がある、一般的だが見落とされているオープンワールド シナリオを掘り下げます。

上記のテスト データを強力な分布外データ (strong OOD) と呼びます。本作で弱いOODデータと呼んでいるのは、一般的な合成ダメージなどの分布シフトを伴うテストデータです。したがって、この現実の環境に関する既存の研究が不足しているため、テスト データが強力な OOD サンプルによって汚染されているオープン ワールド テスト セグメント トレーニング (OWTTT) の堅牢性の向上を検討する動機になります。

0ba52ed6010cda9f6380004d1bc480a5.png

図 1: OWTTT 設定における既存 TTT 手法の評価結果

図 1 に示すように、最初に OWTTT 設定で既存の TTT メソッドを評価し、自己トレーニングと分布調整による両方の TTT メソッドが強い OOD サンプルの影響を受けることを発見しました。これらの結果は、オープンワールドでの安全なテスト時間トレーニングは、既存の TTT 技術を適用することによっては達成できないことを示しています。彼らの失敗は次の 2 つの理由によると考えられます。

  • 自己学習に基づく TTT では、テスト サンプルを既知のカテゴリに割り当てる必要があるため、強力な OOD サンプルを処理することは困難です。一部の信頼性の低いサンプルは、半教師あり学習で採用されているしきい値を適用することで除外できますが、すべての強力な OOD サンプルを除外することは保証されていません。

  • ターゲット ドメインの分布を推定するために強力な OOD サンプルが計算される場合、分布調整ベースの方法が影響を受けます。グローバル分布アライメント [1] とクラス分布アライメント [2] の両方が影響を受け、不正確なフィーチャ分布アライメントにつながる可能性があります。

既存の TTT 手法が失敗する潜在的な理由を考慮して、自己トレーニング フレームワークの下でオープンワールド TTT の堅牢性を向上させる 2 つの手法の組み合わせを提案します。

まず、自己トレーニングされたバリアント上で TTT のベースラインを構築します。つまり、ソース ドメイン プロトタイプをクラスター センターとしてターゲット ドメインでクラスタリングします。誤った擬似ラベルを使用した強力な OOD に対する自己トレーニングの影響を軽減するために、強力な OOD サンプルを拒否するハイパーパラメーターを使用しないメソッドを設計します。

弱い OOD サンプルと強い OOD サンプルの特性をさらに分離するために、分離された強い OOD サンプルを選択することでプロトタイプ プールを拡張できるようにします。したがって、自己トレーニングにより、強力な OOD サンプルが、新しく拡張された強力な OOD プロトタイプの周囲に密なクラスターを形成できるようになります。これにより、ソース ドメインとターゲット ドメイン間の配布の調整が容易になります。さらに、確証バイアスのリスクを軽減するために、世界的な分布の調整を通じて自己訓練を定期的に行うことを提案します。

最後に、オープンワールド TTT シナリオを合成するために、CIFAR10-C、CIFAR100-C、ImageNet-C、VisDA-C、ImageNet-R、Tiny-ImageNet、MNIST、SVHN データセットを採用し、弱い OOD 用のデータセットを使用します。他の人は、強力な OOD のベンチマーク データ セットを確立します。私たちはこのベンチマークをオープンワールド テスト セグメント トレーニング ベンチマークと呼び、これにより、より現実的なシナリオでのテスト セグメント トレーニングの堅牢性に焦点を当てた今後の作業が促進されることを期待しています。

方法

本稿では 4 部に分けて提案手法を紹介する。

1)オープンワールドでのテスト セグメント トレーニング タスクの設定の概要。

2)プロトタイプのクラスタリングを通じて TTT を実装する方法と、オープンワールドのテスト時トレーニング用にプロトタイプを拡張する方法を紹介しました。

3)動的プロトタイプ拡張にターゲット ドメイン データを使用する方法を紹介します

4)プロトタイプのクラスタリングと組み合わせた分散調整を導入して、強力なオープンワールドのテスト時間トレーニングを実現します。

6160db0f0aa8199ea0a7f2d19103ab67.png

図 2: メソッドの概要図

タスクの設定

TTT の目的は、ソース ドメインの事前トレーニング済みモデルをターゲット ドメインに適応させることであり、ターゲット ドメインにはソース ドメインと比較して分布シフトがある可能性があります。標準のクローズドワールド TTT では、ソース ドメインとターゲット ドメインのラベル スペースは同じです。ただし、オープンワールド TTT では、ターゲット ドメインのラベル スペースにソース ドメインのターゲット スペースが含まれます。これは、ターゲット ドメインがこれまでに見たことのない新しい意味カテゴリを持つことを意味します。

TTT 定義間の混乱を避けるために、評価には TTAC [2] で提案されている逐次テスト時間トレーニング (sTTT) プロトコルを採用します。sTTT プロトコルでは、テスト サンプルが順次テストされ、テスト サンプルの小さなバッチを観察した後にモデルの更新が実行されます。タイムスタンプ t に到着するテスト サンプルの予測は、t+k (k は 0 より大きい) に到着するテスト サンプルの影響を受けません。

プロトタイプクラスタリング

ドメイン適応タスクでクラスタリングを使用する作業 [3、4] に触発され、テスト セグメントのトレーニングをターゲット ドメイン データ内のクラスター構造を発見するものと見なします。代表的なプロトタイプをクラスター中心として特定することにより、クラスター構造がターゲット ドメイン内で特定され、テスト サンプルをプロトタイプの 1 つの近くに埋め込むことが推奨されます。プロトタイプ クラスタリングの目標は、次の式に示すように、サンプルとクラスター中心間のコサイン類似度の負の対数尤度損失を最小限に抑えることとして定義されます。

fad122a38ae16947f2e1d6be82379ec2.png

モデルの重みを調整することによる悪影響を回避するために、強い OOD サンプルをフィルタリングして除外するハイパーパラメータフリーの方法を開発しました。具体的には、次の方程式に示すように、各テスト サンプルの強力な OOD スコア os を、ソース ドメイン プロトタイプとの最も高い類似性として定義します。

0ccb6d2935633300543b26ed5283413b.png

aee4795d4e6c5526cb2d1f02207356f0.png

図 3 外れ値は二峰性分布を示します

図 3 に示すように、外れ値が二峰性分布に従っていることがわかります。したがって、固定のしきい値を指定する代わりに、2 つの分布を分離する最良の値として最適しきい値を定義します。具体的には、この問題は外れ値を 2 つのクラスターに分割するものとして定式化でき、最適なしきい値は のクラスター内分散を最小化します。次の式の最適化は、0 から 1 までのすべての可能なしきい値を 0.01 刻みで徹底的に検索することで効率的に実現できます。

aa943ef8c66cca778d8f4066c0d3b1cc.png

動的なプロトタイプの拡張

強力な OOD プロトタイプのプールを拡張するには、ソース ドメインと強力な OOD プロトタイプの両方を考慮してテスト サンプルを評価する必要があります。データからクラスターの数を動的に推定するために、以前の研究では同様の問題が調査されてきました。決定論的ハード クラスタリング アルゴリズム DP-means [5] は、既知のクラスター中心までのデータ ポイントの距離を測定することによって開発され、その距離がしきい値を超えると、新しいクラスターが初期化されます。DP 平均は、K 平均目標の最適化と同等であることが示されていますが、クラスター数に追加のペナルティがあり、動的なプロトタイプ拡張のための実行可能なソリューションを提供します。

追加のハイパーパラメータを推定する困難を軽減するために、最初に、次のように、既存のソース ドメイン プロトタイプと強力な OOD プロトタイプに最も近い距離として、拡張された強い OOD スコアを持つテスト サンプルを定義します。したがって、このしきい値を超えてサンプルをテストすると、新しいプロトタイプが構築されます。近くのテストサンプルを追加しないようにするために、このプロトタイプの拡張プロセスを段階的に繰り返します。

53cc8d2b80c01c4e4719e82fdf900442.png

特定された他の強力な OOD プロトタイプを使用して、2 つの要素を考慮してサンプルをテストするためのプロトタイプのクラスタリング損失を定義します。まず、既知のクラスに分類されたテスト サンプルは、プロトタイプに近く、他のプロトタイプからは遠くに埋め込まれる必要があります。これが K クラス分類タスクを定義します。第 2 に、強力な OOD プロトタイプとして分類されたテスト サンプルは、K+1 クラス分類タスクを定義するソース ドメイン プロトタイプから遠く離れている必要があります。これらの目標を念頭に置いて、プロトタイプのクラスタリング損失を次のように定義します。

e587ef925cd0a21d937688825618ba31.png

分布調整の制約

自己トレーニングは、誤った疑似ラベルの影響を受けやすいことが知られています。ターゲット ドメインが OOD サンプルで構成されている場合、状況はさらに悪化します。失敗のリスクを軽減するために、次のように、自己学習のための正則化として分布アラインメント [1] をさらに使用します。

da66132c1bd0f2937eb69f513c728a20.png

実験

合成的に破損したデータセットやスタイルが異なるデータセットを含む、5 つの異なる OWTTT ベンチマーク データセットでテストします。実験では主に、弱OOD分類精度ACCS、強OOD分類精度ACCN、および両者の調和平均ACCHの3つの評価指標を使用します。

ac263083363fdb98464bc604876687e9.png

表 1 Cifar10-C データセットに対するさまざまなメソッドのパフォーマンス

5720ac2bb1e59ed41b992cd6e5545493.png

表 2 Cifar100-C データセットに対するさまざまなメソッドのパフォーマンス

af6415c68f33b34db4e0266817accfd8.png

表 3 ImageNet-C データセットに対するさまざまなメソッドのパフォーマンス

f9c95307d04b02a5307b6e99517c399c.png

表 4 ImageNet-R データセットに対するさまざまなメソッドのパフォーマンス

7e891a26f2348a65f6fda24a5684fb1a.png

表 5 VisDA-C データセットに対するさまざまなメソッドのパフォーマンス

上の表に示されているように、私たちの方法は、ほぼすべてのデータセットに対して現在の最良の方法と比較して大幅に改善されており、強い OOD サンプルを効果的に識別し、弱い OOD サンプルの分類への影響を軽減できます。私たちの方法は、オープンワールドのシナリオでより堅牢な TTT を実現できます。

要約する

この論文では、まずオープンワールドテストセグメントトレーニング(OWTTT)の問題と設定を提案し、ソースドメインサンプルからのセマンティックオフセットを持つ強力なOODサンプルを含むターゲットドメインデータを処理するときに既存の方法が困難に遭遇することを指摘し、自己トレーニングを提案します動的プロトタイプ拡張に基づく方法は、上記の問題を解決します。この研究が、より堅牢な TTT 手法を探求するための TTT に関するその後の研究に新たな方向性を提供できることを願っています。

CVer WeChat パブリック アカウントのバックグラウンドで返信: OWTTT、この論文の PDF とコードをダウンロードできます

参考文献:

[1] Yuejiang Liu、Parth Kothari、Bastien van Delft、Baptiste Bellot-Gurlet、Taylor Mordan、Alexandre Alahi。Ttt++: 自己教師ありのテスト時間トレーニングが失敗するとき、または成功するときは何ですか? 神経情報処理システムの進歩、2021 年。

[2] ヨンイ・スー、シュンシュウ、クイ・ジア。現実的なテスト時のトレーニングの再考: アンカー クラスタリングによる逐次推論と適応。神経情報処理システムの進歩、2022 年。

[3] ホイタンとクイジア。差別的な敵対的ドメイン適応。人工知能に関する AAAI 会議議事録、第 34 巻、5940 ~ 5947 ページ、2020 年。

[4] Kuniaki Saito, Shohei Yamamoto, Yoshitaka Ushiku, and Tatsuya Harada. Open set domain adaptation by backpropagation. In European Conference on Computer Vision, 2018.

[5] ブライアン・クリスとマイケル・I・ジョーダン。K 平均法の再考: ベイジアン ノンパラメトリックによる新しいアルゴリズム。2012 年の機械学習に関する国際会議にて。

クリックして入力 -> [ターゲット検出と変換] コミュニケーショングループ

ICCV/CVPR 2023 の論文とコードのダウンロード

 
  

バックステージ返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/132913825