SRe2L

15884402:

データ圧縮または蒸留というタスクは、ここ数年で大きな注目を集めています。データ圧縮方法は、大規模なデータセットを代表的なコンパクトなサブセットに圧縮することで、元のデータセットの重要な情報を保持しながら、モデルの高速トレーニングとデータの効率的な保存を促進します。データ圧縮は大量のデータを処理するプロセスで重要な役割を果たすため、研究やアプリケーションにおけるデータ圧縮の重要性を過小評価することはできません。高度なアルゴリズムの採用により、データ圧縮は大幅に進歩しました。ただし、既存のソリューションは主に低解像度の小さなデータセットの圧縮に優れています。この制限は、バイレイヤー最適化中に多数のアンロール反復を実行することによって生じる膨大な計算オーバーヘッドによるものです。

MBZUAI と CMU チームの最新の作業である SRe2L は、 この問題に対処しています。この作品は現在、大規模な高解像度データセットの抽出を実現した唯一のフレームワークであり、 Imagenet-1K の元の 1.2M データ サンプルを 0.05M に圧縮できます (圧縮率 1:20 )。蒸留用の 224x224 解像度 ImageNet-1K 標準検証セット (val セット) では、最高の 60.8% Top-1 精度が達成され、 TESLA (ICML'23) などの以前のすべての SOTA メソッドの精度 27.9%をはるかに上回っています。 。

この作業は現在、蒸留されたデータ、蒸留プロセス、トレーニング コードを含めて完全にオープンソース化されています。

論文: https://arxiv.org/abs/2306.13092

コード: https://github.com/VILA-Lab/SRe2L

データセットの蒸留/圧縮タスクの定義と難しさ

従来のモデルの蒸留は、可能な限り最高のモデルのパフォーマンスを確保しながら、よりコンパクトなモデルを取得することを目的としています。対照的に、データセット蒸留タスクは、よりコンパクトで表現力豊かな圧縮データセットを取得する方法に焦点を当てており、データ サンプルは元のデータセットよりも大幅に少なくなります (モデルを最初からトレーニングする計算オーバーヘッドが節約されます)。このトレーニングでは圧縮データ セットを使用し、元のデータ検証セットでテストを行うとさらに高い精度を得ることができます。

データセット蒸留タスクの主な困難は、必要なサンプルを効率的かつ実行可能に生成するための生成アルゴリズムを設計する方法です。生成されたサンプルには、元のデータセットのコア情報が含まれているか、保持されている必要があります。現在、一般的に使用されている方法には、勾配マッチング、特徴マッチング、軌跡マッチングなどが含まれますが、これらの方法の共通の欠点は、大規模なデータセットにスケールアップできないことです。たとえば、標準の ImageNet-1K 以上のデータセットは、計算と GPU メモリの制限により抽出できません。大量の計算と GPU メモリの必要性の主な理由は、これらの方法では生成プロセス中に大量の情報を照合して保存する必要があるためですが、現時点では、多くの GPU メモリでは照合する必要があるすべてのデータ情報を収容できません。したがって、これらの方法のほとんどは、より小さなデータセットにのみ適用できます。

これらの問題に対応して、新しい論文では、データ生成とモデルのトレーニングの 2 つのステップを分離することにより、3 段階のデータセット蒸留アルゴリズムを提案しています。新しいデータを生成するための蒸留プロセスは、元のデータセットで事前にトレーニングされたモデルのみに依存します。これにより、計算とメモリの要件が大幅に軽減されます。

ソリューションの核となるアイデア

これまでのデータセット抽出手法の多くは、サンプル生成とモデル トレーニングの 2 レベルの最適化を中心としており、モデル パラメーターの軌道マッチングに基づいて圧縮データを生成していました。これらの方法の最大の制限は、スケーラビリティがあまり高くなく、必要なメモリ消費量と計算が非常に大きく、完全な ImageNet-1K 以上のデータ セットに十分に拡張できないことです。

これらの問題に対応して、この論文の著者は、データ生成とモデルトレーニングを分離する方法を提案します。これにより、元のデータ情報抽出プロセスとデータ生成プロセスが互いに独立し、より多くのメモリ要件が回避されるだけでなく、データと生成されたデータにより、元のデータにノイズが発生し、生成されたデータにバイアスがかかります。

具体的には、この論文では、以下の図に示すように、Squeeze、Restore、および Relabel (SRe2L) と呼ばれる新しいデータセット圧縮フレームワークを提案します。これは、トレーニング中と 2 つの独立した操作としての 2 層最適化中にモデルと合成データを切り離し、データセットが効率的なデータセット圧縮を目的として、さまざまなスケール、さまざまなモデル アーキテクチャ、および高い画像解像度を処理できます。

この論文で提案された方法は、さまざまなデータセット サイズでの柔軟性を実証し、いくつかの側面で複数の利点を示します。1) 合成画像の任意の解像度、2) 高解像度でのトレーニング コストとメモリ消費量が低い、3) 任意に評価する機能の拡張ネットワーク構造。この論文では、Tiny-ImageNet および ImageNet-1K データセットに対して広範な実験を実施し、優れたパフォーマンスを実証しています。

3 段階のデータセット抽出フレームワーク

この論文では、3 段階のデータセット抽出のフレームワークを提案します。

  • 最初のステップは、通常のモデル トレーニングと同様に、データ セット全体のコア情報をモデルに圧縮し、その情報をモデル パラメーターを通じて元のデータ セットに保存することです。

  • 2 番目のステップは、トレーニングされたモデル パラメーターからこれらの高度に抽象化された情報を復元することです。この論文では、復元された画像の品質とデータセット蒸留タスクに対するさまざまな損失関数と正則化関数の影響について説明します。

  • 3 番目のステップは、生成されたデータに対するクラス ラベルの再調整という最も大きな改善を伴うステップです。ここでは、著者はFKD法を採用して、各作物に対応するソフトラベルを生成し、それをデータセットの新しいラベルとして保存します。

3 段階のプロセスを次の図に示します。

パフォーマンスとコンピューティングのエネルギー効率

50 IPC (クラスあたり 50 枚の画像) 未満では、この論文で提案された方法は、Tiny-ImageNet および ImageNet-1K で 42.5% および 60.8% という最高のトップ 1 精度を達成し、これは以前の最良の方法よりも高いです。そして32.9%。

また、本稿で提案する手法は、MTTに比べて約52倍(ConvNet-4)、16倍(ResNet-18)の速度を実現し、データ合成時のメモリ所要量もMTTの11.6倍と少ない。 (ConvNet-4) と 6.4 倍 (ResNet-18) の具体的な比較を次の表に示します。

実験結果

実験設定

この作業は主に大規模なデータ セットの抽出に焦点を当てているため、2 つの比較的大きなデータ セット、ImageNet-Tiny と ImageNet-1K が実験用に選択されました。バックボーンネットワークとして、本稿ではターゲットモデル構造として自社構築したResNet-{18, 50, 101}、ViT-Tiny、BN-ViT-Tinyを使用します。テストフェーズでは、以前の作業と同様に、モデルを最初からトレーニングすることで圧縮データセットの品質を評価し、ImageNet-Tiny と ImageNet-1K の元の検証セットでのテスト精度を報告します。

完全な ImageNet-1K データセットの結果

同じ IPC 条件下で、この論文の実験結果は以前の方法 TESLA をはるかに上回っていることがわかります。同時に、この方法で抽出されたデータセットでは、モデル構造が大きいほど、トレーニングによって得られる精度が高くなり、優れた一貫性とスケーラビリティを反映します。

次の図は、パフォーマンス比較の可視化結果です。従来の TESLA 蒸留によって得られたデータセットでは、モデルが大きくなるほどパフォーマンスが低下し、大規模なデータセット蒸留には不利な状況であることがわかります。それに対して、この論文で提案する方法は、モデルが大きくなるほど精度が高くなり、常識や実用化の要件に沿ったものになります。

圧縮データの視覚化 

上の図からわかるように、MTT によって生成されたデータ (1 行目と 3 行目) と比較して、この論文で生成されたデータ (2 行目と 4 行目) は、品質、明瞭さ、意味情報の点で大幅に優れています。 。ワオソフト アイオット http://143ai.com

蒸留過程画像生成のアニメーション

また、50、200 の IPC (4K 復元予算付き) を含む圧縮データセット ファイルは、次のリンクから入手できます: https://zeyuanyin.github.io/projects/SRe2L/

この方法を継続的な学習タスクに拡張した結果

上の図は、5 ステップおよび 10 ステップの増分学習戦略を示しています。これは、200 カテゴリ (Tiny-ImageNet) を 5 または 10 の学習ステップに分割し、各ステップはそれぞれ 40 と 20 のカテゴリに対応します。この論文の結果は、ベースライン (ベースライン) のパフォーマンスよりも大幅に優れていることがわかります。

Supongo que te gusta

Origin blog.csdn.net/qq_29788741/article/details/131879290
Recomendado
Clasificación