従来の微調整を超えて！Metaの新作VPT：Visual Promptが登場！トランクをフリーズし、パラメーターの1％のみを調整すると、パフォーマンスが大幅に向上します。..。

下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください

AI / CVの重い乾物、できるだけ早く配達

Fengseは凹面の寺院からのものであり、次の
ものから複製されます：qubit（QbitAI）

NLPの分野における「新しい最愛の人」としての迅速な調整は、NLP事前トレーニングの新しいパラダイムとして学者からも称賛されました。

それで、それはCVフィールドから借りて、同じ結果を生み出すことができますか？

現在、コーネル大学やMeta AIなどの機関から、Promptを使用してTransformerベースのビジョンモデルを調整した結果、次のことがわかりました。

絶対に大丈夫！

ビジュアルプロンプトチューニング

論文：https：//arxiv.org/abs/2203.12119

完全な微調整と比較して、Promptのパフォーマンスは大幅に向上しています。モデルのサイズとトレーニングデータに関係なく、24のケースのうち20が完全に勝ちます。

同時に、各タスクに必要なストレージコストを大幅に削減できます。

モデルパラメータの1％未満を使用します

誰もが常に使用している完全な微調整には、ダウンストリームタスクごとにバックボーンパラメータの個別のコピーを保存して展開する必要があります。特に、Transformerベースのモデルがどんどん大きくなり、それを超えているため、コストが高すぎます。 CNNアーキテクチャ。

いわゆるプロンプトは、元々、入力テキスト内の言語命令の事前プログラミングを指します。これにより、事前にトレーニングされた言語モデルは、さまざまなダウンストリームタスクを直接理解できます。

これにより、サンプルが少ないかゼロの場合でも、GPT-3は強力な一般化を示すことができます。

最近のいくつかの結果は、プロンプトが完全に微調整されたパフォーマンスに匹敵し、パラメーターストレージが1000分の1に削減されることを示しています。

NLPの高性能により、多くの人々がCVの分野でプロンプトの魔法を探求するようになりましたが、それらはクロスモーダルタスクでのテキストエンコーダーの入力に制限されています。

この論文では、著者は提案されたビジュアルプロンプトチューニング方法、または略してVPTを参照します。誰もがビジョンモデルのバックボーンにプロンプトを適用して結果を達成したのはこれが初めてです。

具体的には、完全な微調整と比較して、VPTは最新の大規模なNLPモデル調整方法に触発されており、特定のタスク用にトレーニングできる少数のパラメーター（モデルパラメーターの1％未満）のみを導入します。下流のタスクをトレーニングしている間、入力スペース。事前にトレーニングされたモデルのバックボーンをフリーズします。

実際には、これらの追加パラメーターは、各Transformerレイヤーの入力シーケンスに事前に追加され、微調整中にリニアヘッドと一緒に学習されます。

合計で、彼らは2つのバリアントを調査しました。

VPT-Deepバリアントは、Transformerエンコーダーの各レイヤーの入力用に学習可能なパラメーターのセットを事前設定します。

VPT-Shallowバリアントは、最初のレイヤーの入力にヒントパラメーターのみを挿入します。

ダウンストリームタスクのトレーニング中は、タスク固有のキューとリニアヘッドのパラメーターのみが更新され、Transformerエンコーダー全体がフリーズします。

次に、ラバですか、それとも馬ですか？押し出す

20/24勝率

実験には、ImageNet-21kで事前トレーニングされた2つのバックボーンが含まれます。1つはVision Transformerからのもので、もう1つはSwinTransformerからのものです。

比較のための微調整方法は3種類あり、次の7種類があります。

（1）完全な微調整：すべてのバックボーンと分類ヘッドのパラメーターを更新します

（2）線形、部分k、Mlp-kを含む分類ヘッドに焦点を当てた微調整。

（3）バックボーンパラメータのサブセットを更新する方法、または微調整中にバックボーンに新しいトレーニング可能なパラメータを追加する方法。これらは、サイドチューン、バイアス、およびアダプタの3つのタイプに分けられます。

実験データセットには2つのセットがあり、次のような異なるドメインにわたる合計24のダウンストリーム認識タスクが含まれます。

（1）FGVCは、5つのベンチマークのきめ細かい視覚的分類タスクで構成されています。

（2）VTAB-1kは、19の異なる視覚分類のセットで構成され、標準カメラでキャプチャされた自然画像タスク（Natural）、特殊機器でキャプチャされた画像タスク（衛星画像など）（Specialized）、および幾何学的理解タスクを必要とするタスクに細分されます。（構造化）、オブジェクトカウントなど。

各タスクの平均精度を測定した後の主な結果は次のとおりです。

VPT-Deepは、24のタスクのうち20で完全な微調整を上回りましたが、使用するモデルパラメーターの合計は大幅に少なくなりました（1.18倍対24.02倍）。

ご存知のとおり、NLP分野でPromptがどれほど強力であっても、そのパフォーマンスは完全な微調整を超えることはありません。これは、PromptがビジュアルTransformerモデルに非常に適していることを示しています。

他の微調整方法（グループbおよびc）と比較すると、VPT-Deepのパフォーマンスはすべて優れています。

さらに、テスト用にバックボーンパラメータースケールとモデルスケール（ViT-B、ViT-L、ViT-H）が異なるViTを選択すると、VPTメソッドは影響を受けず、基本的に最高のパフォーマンスを維持できることがわかりました。

Swin Transformerでは、包括的な微調整方法の平均精度は高くなりますが、パラメーターのコストも膨大になります。

他のすべての微調整方法はVPTより劣っています。

著者について

筆頭著者のJiaMenglinは、コーネル大学の情報科学の博士課程の学生であり、彼の主な研究の方向性は、視覚的およびテキスト的情報のきめ細かい認識です。これまでに、彼は4つのトップペーパーを発表しています。

一般的なTangLumingは、コーネル大学でコンピューターサイエンスの博士課程の学生でもあり、清華大学で数学と物理学を専攻して卒業しました。

彼の主な研究対象は、機械学習とコンピュータービジョンの交差点です。

VPT 论文下载

后台回复：VPT，即可下载上面论文

ICCVおよびCVPR2021ペーパーおよびコードのダウンロード

舞台裏の返信：CVPR2021、 CVPR2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信：ICCV2021、 ICCV2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信：トランスフォーマーレビュー、最新の3つのトランスフォーマーレビューPDFをダウンロードできます

CVer-トランス交換グループを設立

以下のQRコードをスキャンするか、WeChat：CVer6666を追加します。CVerアシスタントWeChatを追加し、CVer- TransformerWeChat 交換グループへの参加を申し込むことができます。さらに、他の垂直方向もカバーされています：オブジェクト検出、画像セグメンテーション、オブジェクト追跡、顔検出と認識、OCR、ポーズ推定、超解像度、SLAM、医療画像、Re-ID、GAN、NAS、深度推定、自律運転、強化学習、レーンライン検出、モデルの剪定と圧縮、ノイズ除去、ヘイズ除去、排水、スタイル転送、リモートセンシング画像、行動認識、ビデオ理解、画像融合、画像取得、紙の寄稿と通信、PyTorch、TensorFlow、トランスフォーマー待機。

必ず注意してください：研究の方向性+場所+学校/会社+ニックネーム（トランスフォーマー+上海+引き継ぎ+カカなど）、フォーマットのコメントによると、それはより速く渡され、グループに招待されます

▲コードをスキャンするか、WeChat：CVer6666を追加して、交換グループに入ります

CVer Academic Exchange Group（Knowledge Planet）はこちらです！最新、最速、最高のCV / DL / MLペーパーエクスプレス、高品質のオープンソースプロジェクト、学習チュートリアル、実践的なトレーニング、その他の資料を知りたい場合は、以下のQRコードをスキャンして、CVer学術交流グループに参加してください。何千人もの人々を集めました！

▲コードをスキャンしてグループに入る

▲上のカードをクリックして、CVerの公式アカウントをフォローしてください

整理は簡単ではありませんので、気に入って見てください