青い文字をクリックしてフォローしてください
フォローしてスターを付ける
決して迷わない
コンピュータビジョン研究所
公的ID|コンピュータビジョン研究所
学習会|参加方法はホームページのQRコードを読み取ってください
論文アドレス: https://arxiv.org/pdf/2305.12972.pdf
プロジェクトコード: https://github.com/huawei-noah/VanillaNet
https://gitee.com/mindspore/models/tree/master/research/cv/vanillanet
コンピュータビジョン研究所コラム
コンピュータビジョン研究所のコラム
基礎となるモデルの中心には、コンピューター ビジョンと自然言語処理の分野での驚くべき成功に例証されている、「多ければ多いほど良い」という哲学があります。ただし、最適化の課題と変圧器モデルの固有の複雑さにより、シンプルさへのパラダイム シフトが必要です。
深層学習アルゴリズムのアーキテクチャは複雑であればあるほど良いのでしょうか? ? ?
01
概要
この研究では、研究者らは、設計に優雅さを組み込んだニューラル ネットワーク アーキテクチャであるVanillaNetを導入しました。高深度、ショートカット、セルフアテンション メカニズムなどの複雑な操作を回避することで、VanillaNet は簡潔かつ強力です。各層はコンパクトかつ簡単になるように慎重に作成されており、トレーニング後に非線形活性化関数が削除されて元のアーキテクチャが復元されます。VanillaNet は、固有の複雑さという課題を克服し、リソースに制約のある環境に最適です。理解しやすく非常に簡素化されたアーキテクチャにより、効率的な導入の新たな可能性が開かれます。広範な実験により、VanillaNet のパフォーマンスがよく知られたディープ ニューラル ネットワークやビジョン トランスフォーマーのパフォーマンスに匹敵することが示され、ディープ ラーニングのシンプルさの力が証明されています。
VanillaNet のこの先見の明のある旅は、状況を再定義し、基礎となるモデルの現状に挑戦し、エレガントで効果的なモデル設計への新しい道を開く大きな可能性を秘めています。
02
バックグラウンド
人工ニューラル ネットワークは、ネットワークの複雑さの増加によるパフォーマンスの向上により、過去数十年にわたって目覚ましい進歩を遂げてきました。これらのネットワークは、多数のニューロンまたはトランスフォーマー ブロックを含む複数の層で構成されており、顔認識、音声認識、物体検出、自然言語処理、コンテンツ生成など、人間に似たさまざまなタスクを実行できます。最新のハードウェアの優れたコンピューティング能力により、ニューラル ネットワークはこれらのタスクを高精度かつ効率的に実行できます。
その結果、スマートフォン、AI 搭載カメラ、音声アシスタント、自動運転車など、AI が組み込まれたデバイスが私たちの生活の中でますます一般的になってきています。確かに、この分野での注目すべき進歩は、12 のレイヤーで構成され、大規模な画像認識ベンチマークで最先端のパフォーマンスを達成する AlexNet の開発でした。この成功に基づいて、ResNet の ResNet は、画像分類、オブジェクト検出、セマンティック セグメンテーションなどの幅広いコンピューター ビジョン アプリケーションでディープ ニューラル ネットワークの高性能トレーニングを可能にします。これらのモデルへの人間設計のモジュールの追加と、ネットワークの複雑さの継続的な増加により、間違いなくディープ ニューラル ネットワークの表現力が強化され、より複雑なアーキテクチャでネットワークをトレーニングしてより高いパフォーマンスを達成する方法に関する研究が急増しています。 。
その結果、研究者らは、コンピューター ビジョン タスクで優れたパフォーマンスを維持しながら、デザインの優雅さとシンプルさを強調する新しいニューラル ネットワーク アーキテクチャである VanillaNet を提案しました。VanillaNet は、過剰な深さ、ショートカット、複雑な操作を回避することでこれを実現し、その結果、固有の複雑さに対処し、リソースに制約のある設定に適した合理化されたネットワーク ファミリが得られます。提案された VanillaNet をトレーニングするために、その簡素化されたアーキテクチャによってもたらされる課題が徹底的に分析され、「ディープ トレーニング」戦略が策定されます。
このアプローチは、非線形活性化関数を含むいくつかの層から始まります。トレーニングが進むにつれて、これらの非線形層は徐々に除去され、推論速度を維持しながら簡単に組み込むことができます。ネットワークの非線形性を強化するために、複数の学習可能なアフィン変換を組み込んだ効率的なシリーズベースの活性化関数が提案されています。これらの技術を適用すると、それほど複雑ではないニューラル ネットワークのパフォーマンスが大幅に向上することが示されています。VanillaNet に関するこの独創的な取り組みは、ニューラル ネットワーク設計の新しい方向への道を切り開き、基礎となるモデルの確立された標準に挑戦し、洗練された効率的なモデル作成のための新しい軌道を確立します。
03
新しいフレームワーク分析
人工知能チップの開発により、最新の GPU は並列計算を簡単に実行でき、強力な計算能力を備えているため、ニューラル ネットワークの推論速度のボトルネックは FLOP やパラメータではなくなります。対照的に、その複雑な設計と巨大な深さにより、速度が妨げられます。この目的を達成するために、研究者らはバニラ ネットワーク、つまり VanillaNet を提案しました。そのアーキテクチャは次の図に示されています。これは、バックボーン、本体、完全に接続された層を含む、一般的なニューラル ネットワーク設計に従っています。既存のディープネットワークとは異なり、各段階で使用されるレイヤーは 1 つだけであり、可能な限り少ないレイヤーで非常にシンプルなネットワークを構築します。
下の図は 6 層 VanillaNet の構造を示しています. その構造は非常に単純です. 5 つの畳み込み層, 5 つのプーリング層, 1 つの全結合層と 5 つの活性化関数で構成されています. 構造設計は AlexNet と VGG の伝統に従っています.ディープネットワークの一般的なスキーム: 残差やセルフアテンションなどの計算を除いて、解像度が徐々に低下し、チャネル数が徐々に増加します。
04
ミニマリスト ネットワークのトレーニング戦略
ディープ トレーニング戦略の主なアイデアは、トレーニング プロセスの開始時に 1 つの畳み込み層ではなく、活性化関数を使用して 2 つの畳み込み層をトレーニングすることです。トレーニング エポックが増加するにつれて、活性化関数は徐々に恒等マップに減少します。トレーニングの最後に、2 つの畳み込みを 1 つに簡単にマージして、推論時間を短縮できます。このアイデアはセルラー ニューラル ネットワークでも広く使用されています。
上の式は、従来の非線形活性化関数 (ReLU など) と恒等マッピングを重み付けすることによって得られます。まず、各バッチ正規化層とその前の畳み込みを 1 つの畳み込みに変換します。
畳み込みをバッチ正規化と組み合わせた後、2 つの 1×1 畳み込みの組み合わせを開始します。x と y を入力特徴と出力特徴として表すと、畳み込みは次のように定式化できます。
ネットワーク トレーニングの初期段階では、非線形活性化関数が優勢となり、トレーニングの開始時にネットワークの非線形性が高くなります。ネットワーク トレーニング プロセス中に、アイデンティティ マッピングの重みが徐々に増加します。このとき、活性化関数は、関数は徐々に線形恒等マップになります。これは次の式で単純に導出されます。
非線形活性化を行わない 2 つの畳み込み層を 1 つの層に融合することができるため、「深いトレーニング、浅い推論」の効果が得られます。
シリーズ通知によるアクティベーション機能
さらに, 研究者らは, ネットワークの非線形性をさらに高めるために, 直列にヒントを得た活性化関数も提案した. 具体的には, A(x) が既存の非線形活性化関数であると仮定すると, 直列活性化関数は, バイアスと重み付けによって活性化関数を通過する,複数の活性化関数の重ね合わせが得られるため、単一の活性化関数はより非線形になります。
級数の近似能力をさらに強化するために、BNET と同様に、級数ベースの関数が近隣関数の入力を変更することでグローバル情報を学習できるようにします。具体的には、入力フィーチャ x (H、W、C はその幅、高さ、チャネル数) が与えられると、アクティベーション関数は次のように定式化されます。
さらに、提案された活性化関数の計算の複雑さを、対応する畳み込み層と比較して分析します。K カーネル サイズ、Cin 入力チャネル、および Cout 出力チャネルを持つ畳み込み層の場合、計算量は次のようになります。
05
新しいフレームワークを使った実験
シリーズ数に関するアブレーション研究
さまざまなネットワークでのアブレーション研究は次のとおりです。
ImageNet-1K のトレーニング済みモデルは次のとおりです。
ResNet-50 および VanillaNet-9 による分類されたサンプルのアテンション マップの視覚化。誤って分類されたサンプルと正しく分類されたサンプルのアテンション マップを比較のために示します。
ImageNet-1K トレーニング設定:
© ジ・エンド
転載の際はこちらの公式アカウントにご連絡の上、許可を得てください。
コンピュータビジョン研究所研究会は皆様のご参加をお待ちしております!
すぐに協力・相談するには「原文を読む」をクリックしてください