CVPR 2023 | LeCun の世界モデルの最初の研究! 自己監視された視覚は人間のように学習し、論理的に判断します。

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして入力 —> [ターゲット検出と変換] Exchange グループ

転載元: Heart of the Machine | 編集者: Du Wei、Xiao Zhou

AI に人間と同じように学習させ、推論させることは、人間の知性への重要なステップです。チューリング賞受賞者のヤン・ルカン氏は、かつて自己監視 + 世界モデルのソリューションを提案しましたが、今回、ついに最初の実際の視覚モデルが完成しました。

昨年の初め、メタ社のチーフAIサイエンティストであるヤン・ルカン氏は、「人間のレベルに近いAIを作成する方法」に関する新しいアイデアを提唱した。彼は、人間レベルの AI を構築するための代替ビジョンを概説し、世界のモデル、つまり世界がどのように機能するかの内部モデルを学習する能力が鍵となる可能性があると指摘しています。世界がどのように機能するかについての内部モデルを学習する機械は、より速く学習し、複雑なタスクを計画し、不慣れな状況に簡単に適応できます。

LeCun 氏は、自律型 AI の構築には予測世界モデルが必要であり、その世界モデルはマルチモーダル予測を実行できなければならないと考えており、これに対応するソリューションが Hierarchical JEPA (Joint Embedded Prediction Architecture) と呼ばれるアーキテクチャです。このアーキテクチャは、より抽象的で長期的な予測のために積み重ねることができます。

6月9日、2023年北京知源会議の開会式での基調講演で、ルクン氏は世界モデルの概念を改めて説明し、自己監視に基づく言語モデルでは現実世界についての知識を得ることができないと述べた。本質的に制御できない。

820c0900bb3be874abc4dc89004548f9.png

本日、Meta は LeCun のワールド モデルのコンセプトに基づいた最初の AI モデルを発表しました。Image Joint Embedding Predictive Architecture (I-JEPA) と名付けられたこのモデルは、(ピクセル自体を比較するのではなく) 画像の抽象表現を比較しながら、外界の内部モデルを作成することで学習します。

I-JEPA は複数のコンピューター ビジョン タスクで非常に優れた結果を達成しており、その計算効率は他の広く使用されているコンピューター ビジョン モデルよりもはるかに高くなります。さらに、I-JEPA によって学習された表現は、広範な微調整を行わずにさまざまなアプリケーションで使用することもできます。

188651efd53a0ffc16435da228d93f69.png

一例として、Meta は 16 個の A100 GPU を使用して 632M パラメーターのビジョン トランスフォーマー モデルを 72 時間でトレーニングし、クラスあたりわずか 12 個のラベル付きサンプルで ImageNet 上のローショット分類の SOTA パフォーマンスも達成しました。他のメソッドは通常、2 ~ 10 倍の GPU 時間を必要とし、同じ量のデータでトレーニングした場合のエラー率が高くなります。

関連論文「Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture」が CVPR 2023 に受理されました。もちろん、すべてのトレーニング コードとモデル チェックポイントはオープンソースになります。

0a1df6b246812d2b095f9d73328555f6.png

  • 論文アドレス: https://arxiv.org/abs/2301.08243

  • GitHub アドレス: https://t.co/DgS9XiwnMz

自己教師あり学習による常識知識の習得

I-JEPA は、人間は受動的観察だけで世界に関する多くの背景知識を学ぶことができ、この常識的な情報が知的な行動を達成するための鍵であると考えられているという事実に基づいています。

通常、AI 研究者は、現実世界の常識を捉え、それをアルゴリズムがアクセス可能なデジタル表現にエンコードする学習アルゴリズムを設計します。効率的にするには、これらの表現を自己教師ありの方法で学習する必要があります。つまり、手動でラベルを付けたデータセットからではなく、画像や音声などのラベルのないデータから直接学習する必要があります。

高レベルでは、JEPA への入力のある部分の表現は、他の部分の表現から予測されます。一方、ピクセル値を直接ではなく高い抽象レベルで表現を予測することで、JEPA は生成モデルの制限を回避しながら、有用な表現を直接学習することができます。

対照的に、生成モデルは、モデルの入力の一部を削除または変形することによって学習します。ただし、生成モデルの重大な欠点は、現実世界は本質的に予測不可能であるにもかかわらず、モデルが欠落している情報をすべて埋めようとすることです。その結果、生成モデルは、高レベルの予測可能な概念を捉えるのではなく、無関係な詳細に焦点を当てすぎます。

735ce74388acfeaccb1b5bab0cc2e5b9.png

自己教師あり学習のための一般的なアーキテクチャ。システムは入力間の関係を捕捉することを学習します。

幅広く機能する JEPA への第一歩

I-JEPA の中心的なアイデアは、人間の理解に近い抽象的な表現で欠落情報を予測することです。ピクセル/トークン空間で予測を行う生成手法と比較して、I-JEPA は抽象的な予測ターゲットを使用するため、不要なピクセルレベルの詳細が削除される可能性があり、モデルがより多くのセマンティックな特徴を学習できるようになります。

I-JEPA がセマンティック表現を生成するように導くもう 1 つの中心となる設計は、マルチブロック マスキング戦略です。この研究では、有益なコンテキストを使用して意味論的な情報を含むブロックを予測し、これが非常に必要であることを示しています。

8595f6702de0f656f3251bed4bbed724.png

I-JEPA は、単一のコンテキスト ブロックを使用して、同じ画像に由来するさまざまなターゲット ブロックの表現を予測します。

I-JEPA の予測子は、部分的に観察可能なコンテキストから静止画像の空間不確実性をシミュレートできる原始的な (そして制約された) 世界モデルとみなすことができます。さらに重要なことは、この世界モデルは、ピクセル レベルの詳細ではなく、画像内の目に見えない領域の高レベルの情報を予測するため、意味レベルです。

8229aa88cfbdba43c9ac252c1c681f84.png

予測子が世界のセマンティクスをモデル化する方法を学習する方法。各画像について、青いボックスの外側の部分がエンコードされ、コンテキストとして予測子に提供されます。次に、予測子は、青いボックス内にあると予想される領域の表現を出力します。予測を視覚化するために、Meta は予測出力によって表される内容のスケッチを生成する生成モデルをトレーニングし、青いボックス内にサンプル出力を表示します。予測子がどの部分を埋める必要があるかのセマンティクス (犬の頭、鳥の脚、オオカミの前肢、建物の反対側など) を認識していることは明らかです。

モデルが何を捉えているかを理解するために、Meta は確率的デコーダーをトレーニングして I-JEPA 予測表現をピクセル空間にマップし直します。これにより、プローブが操作されて予測が行われたときのモデル出力が青いボックスで表示されます。この定性的評価は、I-JEPA が位置の不確実性を正確に捕捉し、正しい姿勢で高レベルのオブジェクト部分 (犬の頭、オオカミの前肢など) を生成していることを示しています。

つまり、I-JEPA は、画像内のオブジェクト部分のローカル位置情報を破棄することなく、オブジェクト部分の高レベル表現を学習することができます。

高効率、強力なパフォーマンス

I-JEPA 事前トレーニングは計算効率も高く、より計算量の多いデータ拡張を使用して複数のビューを生成する場合でもオーバーヘッドは発生しません。ターゲット エンコーダは画像の 1 つのビューを処理するだけでよく、コンテキスト エンコーダはコンテキスト ブロックを処理するだけで済みます。

以下の図に示すように、実験の結果、I-JEPA は手動でビューを拡張することなく、強力な既製の意味表現を学習することがわかりました。さらに、I-JEPA は、ImageNet-1K 線形プローブおよび半教師あり評価におけるピクセルおよびトークンの再構成手法よりも優れた性能を発揮します。

2bcbb37bcab0d13608b8012fd11296e1.png

ImageNet-1k データセットの線形評価。

I-JEPA は、セマンティック タスクでの手動データ拡張に依存する以前の方法とも競合します。対照的に、I-JEPA は、オブジェクトのカウントや深さの予測などの低レベルの視覚タスクで優れたパフォーマンスを実現します。I-JEPA は、厳密性の低い誘導バイアスを備えた単純なモデルを使用することで、より幅広いタスクに適用できます。

94978d2d8abb135b63bb88d2929086a6.png

低いショット分類精度: 1% ラベルを使用した ImageNet-1k 上の半教師あり評価結果 (クラスごとにラベル付き画像は 12 個のみ)。

AI知能が人間のレベルに一歩近づいた

I-JEPA は、手動の画像変換を通じて追加の知識をエンコードすることなく、競争力のある既製の画像表現を学習できる可能性を実証します。JEPAが、より豊かなモダリティからより一般的な世界モデルを学習し続けることは特に興味深いでしょう。たとえば、人々が短い予測からビデオで将来の出来事についての長期的な空間的および時間的予測を行うなど、予測が調整されます。

Meta は、JEPA のアプローチを画像とテキストのペアのデータやビデオ データなどの他の領域にも拡張したいと考えています。将来的には、JEPA モデルをビデオ理解などのタスクに適用できるようになります。これは、より一般的な世界モデルを学習するために自己教師あり手法を適用および拡張するための重要なステップです

元のリンク: https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/

クリックして入力 —> [ターゲット検出と変換] Exchange グループ

最新の CVPR 2023 論文とコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

バックグラウンド返信: Transformer レビュー、最新の 3 つの Transformer レビュー PDF をダウンロードできます

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てくださいc9a164a2bd48b4f976f72694c974132b.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/131238532