ICLR 2023 | RevCol: ニューラル ネットワーク アーキテクチャに新たな次元を追加! 大規模モデル アーキテクチャ設計の新しいパラダイム

青い文字をクリックしてフォローしてください

フォローしてスターを付ける

決して迷わない

コンピュータビジョン研究所

3ff7f06a6d373f3b67e792fd8ef45538.gif

33a1a96829a334e5bd7dc7992c4a1a70.gif

公的IDコンピュータビジョン研究所

学習会参加方法はホームページのQRコードを読み取ってください

1bf6e1a37f8b84f4f07e3c78eada30e4.png

論文アドレス: https://arxiv.org/pdf/2212.11696.pdf

プロジェクトコード: https://github.com/megvii-research/RevCol

コンピュータビジョン研究所コラム

コンピュータビジョン研究所のコラム

新しいニューラル ネットワーク設計パラダイムである Reversible Column Network (RevCol) が提案されています。RevCol の本体は、それぞれ列名が付けられた複数のサブネットワークのコピーで構成され、サブネットワーク間ではマルチレベルの可逆接続が使用されます。

7909757facaceebb4db494f61cc8f0bb.gif

01

概要

このようなアーキテクチャ スキームにより、RevCol は従来のネットワークとは大きく異なる動作をします: 順伝播中、RevCol の機能は各列を通過するにつれて徐々に解明され、他のネットワークのようにブロックされるのではなく、その全体的な情報が保存されます。

実験の結果、CNN スタイルの RevCol モデルは、特にパラメーターの予算が大きくデータセットが大きい場合に、画像分類、オブジェクト検出、セマンティック セグメンテーションなどの複数のコンピューター ビジョン タスクで非常に競争力のあるパフォーマンスを達成できることが示されています。たとえば、RevCol-XL は、ImageNet-22K の事前トレーニング後、ImageNet-1K で 88.2% の精度を達成します。より多くの事前トレーニング データを考慮すると、最大のモデルである RevCol-H は、ImageNet-1K で 90.0%、COCO 検出最小セットで 63.8% APbox、ADE20k 分割で 61.0% mIoU を達成します。

私たちの知る限り、これは純粋な (静的) CNN モデルの中で最高の COCO 検出と ADE20k セグメンテーションの結果です。さらに、一般的なマクロ アーキテクチャ アプローチとして、RevCol を Transformer やその他のニューラル ネットワークに導入することもでき、これによりコンピューター ビジョンや NLP タスクのパフォーマンスが向上することが証明されています。

e863fe5229d291e06c3e5d4c538ce500.gif

02

背景と動機

情報ボトルネック原則 (IB) がディープラーニングの世界を支配しています。以下の図 a に示すような、典型的な教師あり学習ネットワークを考えてみましょう。入力付近の層にはより低レベルの情報が含まれており、出力付近の特徴には豊富なセマンティクスが含まれています。

18417bbb35c347d75ac608fcc4d91520.png

言い換えれば、層ごとの伝播中に、ターゲットに依存しない情報が徐々に圧縮されます。この学習パラダイムは多くの実際のアプリケーションで大きな成功を収めていますが、特徴学習の観点からは最良の選択ではない可能性があります。学習された特徴が過度に圧縮されている場合、または学習されたセマンティック情報がターゲット タスクと一致していない場合、下流のタスクは無関係です。特にソース タスクとターゲット タスクの間に大きなドメイン ギャップがある場合、タスクのパフォーマンスが低下する可能性があります。研究者らは、自己教師ありの事前トレーニングやマルチタスク学習などを通じて、学習した特徴をより一般的に適用できるようにするために多大な努力を払ってきました。

今日の共有では、研究者らは主に別の方法、つまり分離された表現を学習するためのネットワークを構築することに焦点を当てています。IB 学習とは異なり、分離された特徴学習は、関連性の低い情報を破棄しながら最も関連性の高い情報を抽出することを目的とするのではなく、タスク関連の概念または意味論的な単語をいくつかの分離された次元にそれぞれ埋め込むことを目的としています。同時に、特徴ベクトル全体が入力とほぼ同じ量の情報を保持します。これは、各細胞がゲノム全体の同じコピーを共有しますが、発現強度が異なる生物学的細胞のメカニズムと非常に似ています。したがって、コンピューター ビジョン タスクでもつれの解けた特徴を学習することも合理的です。たとえば、物体検出などの下流タスクで必要とされる他の特徴次元で低レベルの情報を維持しながら、ImageNet の事前トレーニング中に高レベルの意味論的表現を調整するなどです。 . (エッジの位置など)。

上の図 (b) は、主なアイデアの概要を示しています。RevCol は、GLOM の全体像から大きく影響を受けています。ネットワークは、同じ構造 (ただし、必ずしもその重みが異なる) の N 個のサブネットワーク (名前付き列) で構成され、各サブネットワークは入力のコピーを受け取り、予測を生成します。したがって、マルチレベルの埋め込み、つまり低レベルから高レベルの意味表現までが各列に格納されます。さらに、情報を損失することなく、列 i から列 (i+1) にマルチレベル特徴を伝播するために、可逆変換が導入されています。伝播中、複雑さと非線形性の増大により、すべての特徴レベルの品質が徐々に向上すると予想されます。したがって、最後の列 (図の列 N) 1(b)) は、入力の最終的な分離表現を予測します。

4f1175086b6d15abb2d202a101f2a6d2.gif

03

新しいフレーム

次に、RevCol の設計詳細を紹介します。上の図 b は、トップレベルのアーキテクチャを示しています。RevCol の各列では、わかりやすくするために ConvNeXt などの既存の構造が直接再利用されることに注意してください。そのため、以下では主に列間の可逆接続を構築する方法に焦点を当てます。さらに、プラグアンドプレイの中間監視が各列の先頭に導入され、トレーニングの収束と機能の品質がさらに向上します。

マルチレベルリバーシブルユニット

新しく提案されたネットワークでは、可逆ニューラル ネットワークからの洞察を利用して、可逆変換が情報を失わずに特徴を分離する上で重要な役割を果たします。その中でもまずはRevNetの傑作をレビューします。以下の図 a に示すように、RevNet はまず入力 x を 2 つのグループ (x0 と x1) に分割します。

45029add8a0081a7f84c44349a7a16fb.png

次に、後のブロック、たとえばブロック t では、前の 2 つのブロックの出力 xt−1 および xt−2 を入力として受け取り、出力 xt を生成します。ブロック t のマッピングは可逆的です。つまり、xt−2 は 2 つの事後ブロック xt−1 および xt から再構成できます。正式には、順方向と逆方向の計算は式†に従います。

1a844edd9b8c693375a58d0d14c8501c.png

上記の問題を解決するために、上記の方程式は次の形式に要約できます。

8bf4553cf4eb5ca32f320abe3e749609.png

したがって、上記の式は、以下の図 b に示すように、複数列の形式に再編成できます。各列は、グループ内の m 個の特徴マップとその親ネットワークで構成されます。これにマルチレベル可逆ユニットという名前を付けます。これは RevCol の基本的な構成要素です。

585874703883dc2e73b40d90f5742b8c.png

リバーシブルコラムアーキテクチャ

  • マクロ設計

9ea712effd8b4e04f3eac7d9f2d687a3.png

上の図 2c はフレームワーク設計を示しています。最近のモデルの一般的な手法に従って、入力画像はまずパッチ埋め込みモジュールによって重複しないパッチに分割されます。次に、パッチは各サブネットワーク (列) に入力されます。列は、ViT や ConvNeXt などの従来の単一列アーキテクチャで実装できます。4 レベルの特徴マップが各列から抽出され、列全体に情報が伝播されます。たとえば、列が広く使用されている階層ネットワークで実装されている場合、多重解像度の特徴を各ステージの出力から簡単に抽出できます。

分類タスクの場合、豊富なセマンティック情報を取得するために、最後の列の最後のレベル (レベル 4) の特徴マップのみが使用されます。

オブジェクト検出やセマンティック セグメンテーションなどの下流タスクでは、低レベルのセマンティック情報が含まれるため、特徴マップの 4 つのレベルすべてが最後の列で使用されます。

  • マイクロデザイン

6b1f7a372e60f768aaa99999949ed603.png

各レベルでは、最初に Fusion ユニットを使用して異なるサイズの入力を同じ形状に調整し、次に一連の ConvNeXt ブロックを通過して出力を取得します。これらは式の ​​Ft(・) であり、次に最終結果を取得するための可逆操作の入力。

元の ConvNeXt ブロックの 7x7 のカーネル サイズが 3x3 に変更されていることは注目に値します。大きなカーネルの利点は Revcol では限定的ですが、小さなカーネルは非常に高速です。

bf74107d81a1d4f39698b2000600e0fa.gif

04

実験

4c476f1cc1c11cd5030ebd728e0724c3.png

2B パラメーター モデルに加えて、1 億 6,800 万のプライベート データ セットも収集され、弱いラベルのラベルが事前トレーニングに使用されます。XL モデル (800M パラメータ) は、22k 未満で 88.2% に達し、Megdata-168M トレーニング後には 89.4% に上昇する可能性があります。巨大な 224 プリトレーニング、640x640 Finetune は 90.0% のトップ 1 精度に達します。このモデルのトレーニング オーバーヘッド: 合計 1600 の ImageNet エポックの事前トレーニング、A100 の 80 ブロックを使用した 1 回のトレーニング、14 日間。

b274deb4a30d9efecd76c52e3a799e4c.png

4d5da96d74cc7c14e01719bbda505f66.png

© ジ・エンド 

転載の際はこちらの公式アカウントにご連絡の上、許諾を得てください。

ed065eae98e09cade5b8409e7ef03cd5.gif

コンピュータビジョン研究所研究会は皆様のご参加をお待ちしております!

だいたい

コンピュータビジョン研究所

Institute of Computer Vision は主にディープラーニングの分野に携わっており、主に物体検出、物体追跡、画像セグメンテーション、OCR、モデル量子化、モデル展開などの研究方向に取り組んでいます。研究機関は、最新の論文アルゴリズムの新しいフレームワークを毎日共有し、ワンクリックで論文をダウンロードできるようにし、実際の戦闘プロジェクトを共有します。当研究所は主に「技術研究」と「実用化」に重点を置いています。当研究所では、誰もが理論から脱却する現場をリアルに体験し、プログラミングと脳思考を好きになる習慣を育むために、分野別の実践プロセスを共有していきます!

b0feb63b3decf0d0ed0fda1f0e010111.png

過去のレビュー

01

清華大学、不均衡なラベルデータを解決するLiVTを提案

02

変圧器の産業展開が上陸!

03

大きなAIモデルがもうすぐ登場

04

Huawei Noahのミニマリストネットワークは13層で83%の精度を達成

おすすめ

転載: blog.csdn.net/gzq0723/article/details/131318210