CVPR'2023 | PA&DA: 共同で最適化されたパスとデータ サンプリングを備えたスーパーネット コンシステント NAS

この記事は、WeChat のパブリック アカウント CVHub で最初に公開されたものであり、いかなる形でも他のプラットフォームに転載することはできません. 学習とコミュニケーションのみを目的としており、違反者は責任を問われます!

タイトル: PA&DA: 一貫した NAS のための PAth と DAta の共同サンプリング

論文: https://arxiv.org/pdf/2302.14772.pdf

コード: https://github.com/ShunLu91/PA-DA

ガイド

重み共有メカニズムに基づいて、ワンショット NAS メソッドはスーパーネットをトレーニングし、スーパーネットの重みを継承してサブネットワークを評価およびソートします。これにより、検索コストが大幅に削減されます。ただし、一部の研究では、トレーニング中に共有される重みの勾配降下の方向が異なることが指摘されています。この論文はさらに、スーパーネットのトレーニング プロセス中に大きな勾配分散が現れ、スーパーネットのランキングの一貫性が低下することを発見しました。この問題を軽減するために、この論文では、パスとデータ (PA&DA) のサンプリング分布を共同で最適化することにより、スーパーネット トレーニングの勾配分散を明示的に最小化していますこの論文では、勾配分散と 2 つのサンプリング分布の間の関係を理論的に導出し、最適なサンプリング確率がパスとトレーニング データの正規化された勾配ノルム比例することを明らかにしています

この論文の方法は、パスとデータのサンプリング分布を最適化する際の計算コストを無視でき、スーパーネットのトレーニングでより低い勾配分散を実現できます。これにより、スーパーネットの一般化パフォーマンスが向上し、より一貫した NASが得られます。この論文は、さまざまな検索空間における他の改善された方法との包括的な比較を提供します。結果は、提案された方法が、より信頼性の高いランキングパフォーマンスより高い検索アーキテクチャの精度で他の方法よりも優れていることを示しており、提案された方法の有効性を実証しています。

助ける

KTとGVの傾向 (KT: Kendall's Tau, GV: Gradient Variance)

この論文では、CIFAR-10 を使用して NAS-Bench-201 で実験を行い、SPOS アルゴリズムを使用してスーパーネットをトレーニングし、スーパーネットの各エッジの候補操作を徐々に増やします.この論文では、すべての候補操作パラメーターの平均勾配分散を記録していますトレーニング プロセス中、スーパーネットのサブネット ランキングの一貫性は、同じ 64 のサブネットワークのランキング結果を測定することによって評価されます

上の図に示すように、スーパーネットにサブモデルが多いほど、勾配分散が大きくなり、ランキングの一貫性が低下します。これらの結果は、正規化された勾配ノルムを重要なメトリックとして使用し、スーパーネットのトレーニング中にパスとデータに重要なサンプリング戦略を採用することにより、サブネットワークの大きな勾配分散がトレーニング中のスーパーネット ランキングの一貫性を損なう可能性があることを示唆しています。ランキングの一貫性を向上させます

この論文の主な寄稿は次のとおりです。

  • この論文は、スーパーネットトレーニングの重み共有メカニズムが大きな勾配分散につながり、それがスーパーネットのパフォーマンスを損ない、ランキングの一貫性を低下させることを検証しています

  • スーパーネットの勾配分散とサンプリング分布の関係を導出することにより、この論文では、パスとデータのサンプリング分布を共同で最適化することにより、スーパーネットのトレーニング中に勾配分散を明示的に最小化することを提案しています。この論文は、最適なサンプリング確率がパスとデータの正規化された勾配ノルムに比例することを発見し、スーパーネットのトレーニング中に重要度サンプリングを使用します。

  • 私たちの方法では、パスとデータの重要度のサンプリングを実行するために必要な計算はごくわずかであり、面倒なハイパーパラメーターの調整は必要ありません。NAS-Bench-201 で最高の Kendall のタウ 0.713 を達成し、DARTS および ProxylessNAS 検索スペースで優れたパフォーマンスを達成しました。

方法

当社のスーパーネット トレーニング フレームワーク

サンプリングベースのワンショット NAS

サンプリングベースのワンショット NAS は、通常、スーパーネット トレーニングとサブネットワーク検索の 2 つの段階に分けられます。

Stage1(トレーニング段階): W \mathcal{W}の重みを確立するWのスーパーネットN \mathcal{N}N._ _ トレーニング中、離散分布p ( A ) p(A)に従ってp ( A )サンプリング サブネットワークα \alphaαはスーパーネットの重みを継承するため、各ステップはサブネットワークα \mathcal{W}_\alphaに含まれる重み W のみをトレーニングしますWa

最終的な最適化の目標は、継続的に反復的にサンプリングされたサブモデルを組み合わせることにより、最終的な最適なスーパーネットの重みW ∗ \mathcal{W}^{*} を取得することです。W

ステージ 2 (検索ステージ):評価のためにトレーニング済みのスーパーネットからサブネットワークを継続的にサンプリングして抽出し、検証データセットでそのパフォーマンスを取得します。ここで、ヒューリスティック検索アルゴリズムを使用して、最適なサブモデルα ∗ \mathcal{\alpha}^{*}を検索できます。a

この論文では、トレーニング中にスーパーネットの勾配分散を減らして、スーパーネットの収束とランキングの一貫性を改善しようとしています。この論文では、スーパーネットのトレーニング プロセス中にサンプリング分布 p ( A ) p(A)を共同で最適化することを提案しています。p ( A )トレーニング データの分布 q ( DT ) \mathbf{q}\left(\mathbb{D}_T\right)q( DT)

どこでd ( p ) d(p)d ( p )およびd ( q ) d(q)d ( q )は、パスおよびデータサンプリング分布勾配分散関数です以下に、それらの間の関係を導き出し、これら 2 つのサンプリング分布を交互に最適化する方法を示します。

パス重要度サンプリング

在第 i i ステップiのトレーニングでは、確率pi p_ipパスからの分布p ( A ) p(A)のサンプリングサブモデルα i \mathcal{\alpha}_{i} in p ( A )のサンプリングa、結果の確率的勾配は次のとおりです。

この論文では、サンプリング分布ppを最適化することにより、上記の式の勾配分散が最小になると予想しています。p :

**, E [ d ] \mathbb{E}[d]E [ d ]とパス サンプリング分布pppは独立** であるため、確率的勾配定式化の制約は次のように再定式化できます。

上記の制約付き最適化問題を解くには、ラグランジュ乗算を使用し、無条件の極値問題に変換して解を求めます。

set ∂ Ψ ( p , λ ) ∂ pi = 0 \frac{\partial \Psi(\mathbf{p}, \lambda)}{\partial p_i}=0pΨ ( p , λ )=0、次を取得できます。

λ = ∑ i = 1 N ∥ ∇ WL ( N ( xi , α i ; W α i ) , yi ) ∥ N \sqrt{λ} = \sum_{i=1}^N \frac{\left\|\ nabla_{\mathcal{W}} \mathcal{L}\left(\mathcal{N}\left(x_i, \alpha_i ; \mathcal{W}_{\alpha_i}\right), y_i\right)\right\ |}{N}l =私は= 1NNWL( N( ×a;Wa)y)

さらに、最適なサンプリング分布p ∗ p^{*}を導き出します。p :

最適パスサンプリング確率pi ∗ p^{*}_iが得られるpサブモデルα i \alpha_iを使用aの正規化された勾配ノルムに比例します。つまり、より大きな勾配ノルムでサブモデルをサンプリングすると、スーパーネット トレーニングの勾配分散を減らすことができます。

実際のアプリケーションでは、論文はα i \alpha_iをサブモデル化します。aの勾配ノルムは、含まれる候補操作の勾配ノルムの合計として測定され、各候補操作の正規化された勾配ノルムをそのサンプリング確率 とします

この論文では、通常の各逆方向の勾配ノルムを計算し、各エポック後に候補操作のサンプリング確率を更新しますしたがって、パス サンプリング分布 p の最適化には簡単な計算が必要であり、特に効率的です。

データ重要度サンプリング

正規化された勾配ノルムに従ってトレーニング データをサンプリングすると、ディープ モデル トレーニングの勾配分散を減らすことができます。これは、次のように正式に表現できます。

紙の最後の層∇ L ∇ _ LL各トレーニング データの勾配ノルムの上限を近似する、活性化前の出力の損失関数の勾配。

このようにして、各トレーニング データの上限にアクセスすることで、それらの重要性を簡単に測定できます。たとえば、画像分類タスクでは、クロス エントロピー損失を使用する場合、最終層は通常ソフトマックスです。∇ L ∇ は事前に導出できます_LLの勾配式であり、次のようにトレーニング中に便利に計算します。

重要度サンプリング NAS

この論文の方法は、トレーニング中の勾配分散を減らすことにより、スーパーネット ランキングの一貫性を向上させることを目的としています経路重要度サンプリングとデータ重要度サンプリングに基づく共同最適化が提案されています

上記の計算は、追加のコード行のみを必要とし、ミニバッチ方式で効率的に実行できます。したがって、この論文では、この近似を使用してトレーニング データの重要性を推定し、正規化された結果を使用して、各エポック後にサンプリング分布 q を更新します。

実験

スーパーネットランキングの一貫性の評価

NAS-Bench-201でのランキング結果

上の図に示すように、PA&DA は SPOS よりも 0.2 GPU 時間多く必要であり、他のモードと比較して最高の KT と P@Top5% を達成しています。これは、論文のトレーニング モードが効果的であり、一貫性の向上に役立つことを示しています。スーパーネットランキング

CIFAR-10 での検索パフォーマンス

DARTS 検索空間を使用した CIFAR-10 データセットでの他の最先端の方法との比較

DARTS 検索スペースで最もよく検索されたセル。

上の図に示すように、この論文の方法は、元の DARTS とその高度なバリアントを凌駕する最高の平均テスト精度97.52 ± 0.07を達成していますNSAS、Few-Shot-NAS、GM、CLOSE などの他の改良されたワンショット NAS 方法と比較して、私たちの方法は最小の検索コストで一貫して優れています。

ImageNet での検索パフォーマンス

ProxylessNAS 検索スペースを使用した ImageNet データセットでの他の最先端の方法との比較

上の図に示すように、PA&DA は DA-NAS、FairNAS-A、SUMNAS-M よりも FLOP が少し多くなっています. SPOS、ProxylessNAS、MAGIC-AT、Few-Shot NAS、GM と比較すると、PA&DA 検索システムの構造は小さくなっています。 、および77.3 の最高のトップ 1 精度が得られます。これは、論文の方法の有効性を証明するのに十分です。

アブレーション実験

バッチサイズの影響

さまざまなバッチサイズの効果と訓練可能性の比較

一般に、バッチ サイズが大きいほど、勾配分散が小さい深いモデルのトレーニングが安定します。上の図から、バッチサイズが増加するにつれて、GV が減少し、KT が単調に増加することが観察できます.バッチサイズ 512 が最高の KT 0.670 ± 0.029 を取得します

平滑化パラメータのスケジュールの影響

スムージング パラメータと DA および PA の更新スケジュールに関するランキング パフォーマンス

各エポック後に DA のサンプリング確率を更新し、サンプル レベル分布を使用して τ を線形に増加させると、最良の結果が得られます。

DAとPAの効果

PAおよびDAのアブレーション研究

これら 2 つのモジュールを一緒に使用すると、最良の結果が得られます。さらに、PA は DA よりもパフォーマンスの向上に貢献します。

要約する

この論文は、スーパーネットのランキングの一貫性を改善するためにパスとデータサンプリング分布を共同で最適化することにより、スーパーネットトレーニングの勾配分散を減らします。この論文では、勾配分散とサンプリング分布の間の関係を導出し、正規化された勾配ノルムを使用してこれら 2 つの分布を更新します。多数の実験により、この方法の有効性が証明されています。将来的には、研究者は、スーパーネット トレーニングの勾配分散を減らすためのより効果的な方法をさらに調査する予定です。

最後に書く

人工知能やコンピューター ビジョンのフルスタック分野にも興味がある場合は、有益で興味深い、愛情深いパブリック アカウント「CVHub」に注目することを強くお勧めします。フィールド、および詳細な最先端の科学論文を毎日解釈し、産業用の成熟したソリューションを提供します! 編集者の WeChat アカウントを追加することを歓迎します: cv_huber、もっと興味深いトピックについて一緒に議論しましょう!

おすすめ

転載: blog.csdn.net/CVHub/article/details/129741337