VALSE 2023 | CV に向けた一般的な人工知能: GPT と大規模モデルからのインスピレーション

著者 | Xie Lingxi 編集者 | Jishi Platform

元のリンク: https://zhuanlan.zhihu.com/p/620631150

「自動運転ハート」公開アカウントに注目するには下のカードをクリックしてください

ADAS ジャンボ乾物、手に入れられます

クリックして入力 → Heart of Autopilot【AIGC】技術交流グループ

ガイド

 

CV は開発統合のタスクとシステムを実現する上ですでに良い仕事をしていますか? 現在のビジョン ベース モデル (最近の SAM を含む) は正確に何を行い、何をしませんか?

序章

前回の長い演説から半年以上が経ちました。この時期は、AI 業界だけでなく全世界にとってもスリリングな時期です。この間、最も印象に残った出来事は、ChatGPT と GPT-4 のリリースでした。GPT-4 がこれまでに作成された中で最も強力な AI プログラムであることは疑いの余地がありません。その後の論文 [1] では、学者らは GPT-4 が汎用人工知能 (AGI) 誕生の火付け役であると言及しました。確かに、AGI の定義は人それぞれ異なり、現段階の GPT は AI 分野のすべての問題を実際に解決したわけではありませんが、大規模モデルに基づく技術は確かに NLP 分野の統合の完成に近づいています、そして人々さえもAGIの夜明けをぼんやりと見ることができます。おそらく 3 ~ 5 年以内に、フォン ノイマン アーキテクチャに基づく AGI コンピューティング アーキテクチャが実現されるでしょう。そうなった場合、大規模モデルはその中核的な位置を占めることになります。

GPT シリーズに加えて、コンピューター ビジョンの分野も非常に活発で、いくつかの最先端の方向で驚くべき進歩が見られます。一般の人々にとって、最も深い感情は AI による絵画です。Stable Diffusion[2]やControlNet[3]などのテクノロジーの出現により、拡散モデルのトレーニングと適用の敷居が大幅に下がりました。Midjourneyのようなコミュニティでは、AIペイントの開発スピードは速いと言え、多くの技術的困難(AIは手を描けない、数えられないなど)も当初は改善されています。現在、エントリーレベルの GPU または少額のサブスクリプション料金があれば、誰でも独自の AI 作品を作成できます。しばらくの間、まったく鈍感だった視覚認識の分野でさえ、SAM [4] と呼ばれる手法によって活性化されています。SAM にはまだ多くの欠陥 (意味認識能力が限られているなど) がありますが、それによって人々は次のことを行うことができます。視覚の基本モデルを参照してください。さらに多くの可能性があります。Google の学者の統計によると、わずか 2 か月で SAM は 200 件以上の引用を受けており、注目度の高さと研究の活発さがわかります。

このようなショックに直面すると、私を含め、多くの研究者が途方に暮れることでしょう。明らかに、NLP の指導の下で、統一されたタスクとシステムの開発が、今後 3 ~ 5 年間で CV 分野全体の中心的なテーマになるでしょう。しかし、CV にはこの野心的な目標を達成する準備ができているでしょうか? 現在のビジョン ベース モデル (最近の SAM を含む) は正確に何を行い、何をしませんか? 2か月にわたって断続的に書き続けてきたこの記事は、これらの問題についての私の考えです。

記事の一部は私によるミニアンケートにもまとめられ、VALSE で報告された PPT とともに以下のアドレスに掲載されました。

https://github.com/198808xc/Vision-AGI-Survey

6dcfe45570a3cd7122f1aedeed645802.jpeg
図 1: 調査レポートのホームページのスクリーンショット。

arXiv のリンクは次のとおりです。

https://arxiv.org/abs/2306.08641

この記事では、AGI の定義から始めます。その後、NLP 分野が経験した変革について簡単に振り返ります。大規模な言語モデルに基づく GPT シリーズは、自然言語処理に画期的な変化をもたらし、AGI の火付け役となりました。次に、履歴書分野の議論に入ります。AGIの次なる重要な戦場としてCV分野は統一モデル化に向けて進んでいるが、依然として大きな困難が残されている。私は既存の研究をレビューし、本質的な困難を分析し、GPT に触発された新しい研究パラダイムを提案します。最後に個人的な意見も述べさせていただきます。

人工知能と一般人工知能

今日、人々は人工知能(AI) という言葉に馴染みがあります現代的な意味での AI は 1956 年のダートマス会議で誕生し、その後、いくつかの浮き沈みを伴いながら数十年にわたる開発を経験しました。AI の基本的な目標は、数学的手法を使用して人間の知能を再現することです。近年、ディープラーニングによってAI分野は大きな進歩を遂げ、人々の生産やライフスタイルを大きく変えてきました。

汎用人工知能(AGI) は AI 開発の最高の目標です。AGI には多くの定義がありますが、その中で最も一般的な定義は、AGI はあらゆる人間や動物の能力を持つことができるアルゴリズムであるというものです。初期のチューリング テスト (ダートマス会議の前) 以来、AGI に関する追求と議論が止まることはありませんでした。深層学習の出現により、AGI のプロセスが大幅に加速され、最近の GPT シリーズが AGI の火花を散らすものであると学者によって考えられています [1]。ディープラーニング自体は、統計学習手法を使用してニューラル ネットワーク (階層的な数学関数) を構築し、入力と出力の形式が決定されたときに入力と出力の関係を近似できるようにする一般的な方法論を提供します。十分なデータがある限り、深層学習は CV、NLP、強化学習などの多くの AI サブフィールドに適用できます。

AGI の正式な定義については、2007 年に出版された書籍「General Artificial Intelligence」の視点が参照できます。エージェントを環境に置くと、一連の状態を観察すると、特定のセットから対応するアクションを選択し、対応する報酬を得ることができます。AGI の目標は、環境内で動作するときに得られる累積報酬を最大化するマッピングを学習することです。AGI の定義は非常にシンプルですが、実装は非常に難しく、実際のデータは高次元であること、人間の知能は複雑な特性を持っていること、神経科学と認知科学の理論が不足していることなどが主な困難です。 、など。

GPT: NLP フィールドで AGI スパークを点火します

GPT シリーズはリリース以来、2 か月以内にユーザー数が 1 億人に達するという奇跡を含む、数々の記録を打ち立ててきました。この記録の重要性は、AIアルゴリズムが史上初めて、一般ユーザー(対消費者、つまり2C)に対峙する能力を備えていることを示していることだ。2C を達成するには、AI アルゴリズムが強力な汎用機能を備え、ユーザーの要件のほとんどを満たすことができなければなりません。驚くべきことに、GPT はこれを実現します。GPT は基本的に、NLP 分野の一般的な問題を解決します。多くの問題 (コードの作成など) において、GPT の能力は特別に設計されたアルゴリズムの能力を上回っています。言い換えれば、GPT は NLP 分野の大きな統合を実現しました。以前は分離されていたように見えた各タスクを、複数回の対話タスクの下で統合できるようになりました。確かに GPT は完璧ではなく、多くの問題に関して間違いを犯したり、意味不明なことを言ったりするでしょうが、予見可能な範囲内では、NLP の研究パラダイムが大きく変わることはありません。この長引く (ダートマス会議から約 70 年) NLP 戦争は勝利し、次のステップは、垂直領域の問題の解決、論理的推論、ユーザー エクスペリエンスの向上など、戦場を整理することです。

GPT の能力表示については、ここでは詳しく説明しませんので、インターネット上の膨大な情報や、論文「AGI Sparks」[1] の体系的かつ詳細な分析を参照してください。公式 GPT-4 ニュースから一文を引用したいと思います。


その結果、GPT -4 トレーニングの実行は (少なくとも私たちにとっては) 予想外に安定しており、トレーニング パフォーマンスを事前に正確に予測できた最初の大型モデルとなりました。私たちにとっては) 前例のないほど安定しており、また、

言い換えれば、GPT-4 の本質はニューラル ネットワーク、つまり確率モデルですが、それが示す動作 (トレーニングであってもテストであっても) はもはや確率モデルのように安定していません。これはまさに驚くべき技術的進歩です。

GPT シリーズの実装原理については、すでに多くの優れた論文が分析されているため、ここでは繰り返しません。簡単に言うと、GPT トレーニングは 2 つの段階に分かれています。最初の段階は生成的事前トレーニングと呼ばれ、主にラベルのない汎用コーパスに対して実行されます。大規模な言語モデルは、次の単語を予測し、一般的なテキストのデータ分布をフィッティングし、コンテキスト内の学習機能を取得することで、少数の例で新しいタスクに適応できます。第 2 段階は命令の微調整と呼ばれ、主に注釈付き対話データベース上で実行されます。その過程で、大規模な言語モデルが一般的なテキストの分布を質問応答データに合わせて調整し、対象となる問題を解決する能力を大幅に向上させます。同時に、モデルは人間のユーザーのフィードバックから報酬関数を学習することもできるため、ユーザーの好みを満たす能力がさらに強化されます。より具体的な分析に興味がある場合は、ChatGPT の実装原理をご自身で検索してください。

CV: AGIの次の戦場

人間は複数のモダリティを通じて世界を理解するため、真の AGI は CV と NLP の組み合わせによって達成される必要があります。ただし、CV での AGI の実装は、NLP での AGI の実装よりもはるかに困難です。前の定義によれば、実際の AGI は、オブジェクト認識やマルチモーダル対話などの主要なタスクを完了するだけでなく、一般的な問題を解決し、環境と対話する能力を備えている必要があります。しかし、図 2 (出典例: UberNet[6]) に示すように、統合対話システムを使用してすべての問題を解決する GPT と比較すると、現在の CV の共通方法論はまだ比較的暫定的なものであり、そのほとんどは以下に限定されています。独立したモデルやアルゴリズムを使用して、すべての問題を解決します。画像分類、オブジェクト検出、インスタンスのセグメンテーション、注意検出、画像の説明、文法グラフなどを含むさまざまな問題を解決します。

5543f73c0bb77affdc27e0d63111079c.jpeg

図 2: 現在の CV は主に独立したアルゴリズムを使用して問題を解決します。

CV統一への困難な道

GPT のレベルに近づくためには、CV は統一システムに移行する必要があります。つまり、システムを使用してさまざまな視覚的問題を解決する必要があります。最近、業界ではそのような試みがかなりの数あり、私たちはそれを 5 つの主要な方向に分類しています。このうち、最初の 3 つの方向は主にタスク フォームの統合を解決し、4 番目は主にビジュアル タスク ロジックの統合を解決し、最後の方向は主に視覚と言語のインタラクションの統合を解決します。以下では、各方向の代表的な作品を簡単にレビューし、その長所と短所を分析します。

  • オープンドメイン視覚認識: アルゴリズムは、トレーニング セットに現れた概念を認識するだけでなく、自然言語やその他の方法を通じてトレーニング セットに現れなかった概念も認識する必要があります。現在、オープンドメイン認識の主な基礎研究は CLIP[7] であり、これはテキストと画像間のクロスモーダルな特徴位置合わせ方法を提供し、人々が自然言語を使用してターゲットの意味論を参照できるようにし、分類と検出を完了します。セグメンテーション、位置決め、オンデマンド認識、その他のタスク。自然言語はオープンドメインの認識を可能にする十分な柔軟性を備えていますが、自然言語では視覚信号内のきめの細かい情報を参照することが困難であるため、認識能力はある程度制限されます。

  • 何でもセグメント化タスク: 統合プロンプト システムを設計し、ラベル付けレベルでデータ クロージャを完了することにより、SAM [4] は画像内のすべての基本ユニットをセグメント化し、広範囲の視覚領域で汎化機能を実証できます。SAM は再トレーニングすることなく、基本的な意味単位を提供し、3D オブジェクトのセグメント化、オブジェクトの削除と塗りつぶし、医療画像のセグメント化、オブジェクトの非表示などに適用できます。SAM によって伝えられる重要なアイデアは、視覚的なタスク (ここでは主にセマンティック ラベルを使用しないセグメンテーションを指します) の難しさを軽減することで、視覚的なタスク フォームの定義を統一し、モデルのドメイン間移行能力を強化することです。形式の観点から見ると、SAM は一般的な視覚認識プロセスの一部のようなものですが、SAM と連携する (完全なプロセスを構築する) ための合理的な上流モジュールと下流モジュールをどのように構築するかはまだ未解決の問題です。

  • ユニバーサル ビジュアル コーディング: 統一されたコーディング形式を通じて複数のタスクを統合する一連の試み。それらは異なる形式を持っていますが、すべて同じ目標を指しています。つまり、異なるモダリティと異なるタスクのデータを統一された形式にエンコードすることにより、単一のニューラル ネットワーク モデルでできるだけ多くのタスクを完了できます。代表的な手法は 3 つのカテゴリに分類されます: 1 つは単一の変換器モデルで CV、NLP、強化学習などのタスクを完了できることを検証する Gato[8]、2 つ目は pix2seq[9] と OFA[10]さまざまな視覚的タスク (検出、セグメンテーション、説明など) が自然言語の形式で統合されているため、トレーニングのために単一のモデルに送信できます。最終的には、Painter[11] と SegGPT[12] から借用しています。 NLP のインコンテキスト学習方法。一連の視覚タスクは、さまざまな形式の画像集約型予測タスクとしてエンコードされ、問題を解決するために単一の視覚専用モデルがトレーニングされます。従来の視覚認識フレームワークと比較して、これらの方法は統合という目標に近づいており、現在のニューラル ネットワーク モデル、特にトランスフォーマーが大規模なクラスのクロスモーダル タスクに適応できることも実証しています。しかし、これらは形式的な統一性を追求しているだけであり、多課題学習との境界が明確ではなく、統一性のメリットが十分に発揮されていない。

  • 大規模な言語モデルによる視覚的理解: 言語モデルの支援により、複雑な視覚的問題が統合された論理チェーンに分解され、問題が段階的に解決されます。実際、この種の方法は新しいものではありません。少なくとも 2017 年には、LSTM を使用して問題を分割し、ビジョン モジュールを呼び出す試みがありました [13]。この方法論の汎用性が大幅に向上したのは、大規模な言語モデルの出現だけです。最近の一連の作業には、GPT を使用してテキスト形式の質問を段階的な実行可能なロジックに変換するという共通点があります。この種のロジックはコードにすることも、検索エンジンに接続することも、フローチャートや自然言語として表現することもできます。必要に応じて、プログラムはビジョン モジュールを呼び出し、検出、カウント、OCR、説明などの基本機能を提供します。この種の方法は、視覚的な質問応答のロジックを強化し、回答の解釈可能性を向上させますが、大規模な言語モデルと基本的なビジョン モジュールに大きく依存します。多くの場合、検出自体によって表される視覚的なタスクも、完了するために複雑なロジックを必要とします。明らかに、現在の方法ではこの深さまでドリルダウンするのは困難です。

  • マルチモーダルな対話: 対話タスクに参照として画像またはビデオを導入すると、対話タスクを通じて統一された形式の視覚的理解を実現できます。視覚、言語、およびクロスモーダル事前トレーニング モデルに基づいて、質問応答タスクを完了するには少数のパラメータのみを微調整する必要があります [14]。GPT シリーズに触発されて、研究者は視覚的な注釈を言語モデルに入力し、単純なプロンプトを含む質問と回答のデータを生成します [15]。これらの質問応答データに基づいてマルチモーダル対話モデルを微調整すると、複雑な質問に答えることができるようになります。現時点では、この方法で生成された質問応答結果は、GPT-4 技術レポート [16] で言及されている例とすでに同等です。ただし、現在のマルチモーダル対話システムの機能のほとんどは、大規模な言語モデルに基づいています。これは、オープンドメイン認識と同様に、マルチモーダルダイアログでは、きめの細かい視覚情報を参照する能力が限られていることを意味します。複雑な画像を参照として使用する場合、アルゴリズムが特定の人物や物体について質問するのは難しく、特定の問題を解決する能力も制限されます。

上記の方向での研究により、CV の分野は新たなレベルに到達しました。現在の進捗状況から判断すると、CV アルゴリズムは特定の条件下で視覚認識を完了でき、予備的なマルチモーダル対話も実行できますが、統一されたモデルと一般的なタスクの解決策にはまだ程遠いです。後者はまさに AGI が必要とするものです。

したがって、なぜ履歴書の統一を達成することがこれほど難しいのか、と問わずにはいられません。 この質問に対する答えは NLP で見つけなければなりません。

NLP から CV へのインスピレーション

私たちは GPT が何を達成するかを別の観点から理解しようとします。私たちは GPT のようなプレーンテキストの世界に住んでいると想像したほうがよいでしょう。このような世界では、複数回の対話タスクで十分かつ必要です。一方で、他のエージェントとテキストでのみ通信できますが、他方で、複数回の対話を通じてすべてのタスクを完了できます。言い換えれば、NLP の分野では、学習環境が完成しています。複数回の対話を通じてアルゴリズムをトレーニングし、アルゴリズムは複数回の対話を習得するだけで、すべてのタスクを完了できる AGI になります。私はこの性質を「学んだことが必要なものになる」と呼んでいます。これは、「見たものは得られるものである」にちなんで造られた言葉です。

この観点からすると、GPTの実装方法よりもGPTで定義された対話タスクの方が重要です! この定義により、AI アルゴリズムは環境と対話することで学習できるようになり、環境と対話して報酬を最大化するという AGI の定義に適合します。それに比べて、CV は明確なルートを形成しておらず、事前トレーニングを行う環境がなく、さまざまなアルゴリズムでは実環境の問題を解決できません。明らかに、これは CV と AGI の基本原則から逸脱しています。実際、コンピューター ビジョンの先駆者であるデイビッド マーは 1970 年代にはすでに、ビジョン アルゴリズムは現実世界のモデルを構築し、インタラクションから学習する必要があると提案しました [17]; その後、他の学者がインタラクションの重要性を指摘しました。しかし、今日、ほとんどの視覚アルゴリズムは、環境と対話する方法を研究するのではなく、さまざまなタスクの精度を向上させる方法を研究しています。

どうしてこれなの?もちろん環境構築の難易度は高すぎます!

代理店のタスク: 理想と現実の間の妥協点

CV タスクのシーンを構築するには、主に 2 つのアプローチがあります。

  • 現実の環境を構築する: 多数のエージェントを現実世界に配置すると、人間を含む他のエージェントと対話することで学習できるようになります。この方法の欠点は、コストが高すぎることと、安全性の確保が難しいことです。

  • 仮想環境を構築します。 ビジュアル アルゴリズムを通じて 3D 環境をシミュレートまたは再構築し、仮想世界でエージェントをトレーニングします。この方法の欠点は、シーン モデリングの信頼性やエージェントの動作の信頼性など、信頼性が欠如しているため、訓練されたエージェントが現実世界に効果的に移行することが困難であることです。

さらに、環境内の他のエージェントの動作のシミュレーションも非常に重要であり、実際のアプリケーション シナリオにおける CV アルゴリズムの適応性が決まります。エージェントと対話する環境が必要な場合 (現実世界に実際のロボットを配置するなど)、データ収集のコストが大幅に増加します。一方で、環境内でのエージェントの行動モードは比較的単一であることが多く、現実世界でのリッチでオープン(オープンドメイン)な行動をシミュレートすることは困難です。

一般に、現在構築されているシーンは、CV アルゴリズムの大規模なトレーニングのニーズを満たすのに十分ではありません。環境をシミュレートできない場合、人々は次善の策に落ち着くしかありません。環境と直接対話することはありませんが、実際の環境から大量のデータをサンプリングし、環境と対話するために必要な機能を定義します。オブジェクト認識、追跡などの一連のエージェント タスク(つまり、タスクを完了することで最終目標に近づく)としての環境。これらのプロキシ タスクの精度を向上させることで、CV アルゴリズムを AGI に近づけることができるという仮説が立てられています。

しかし問題は、この仮定が正しいかどうかです。

図 3 は私たちの視点を表しています。ディープラーニングが登場する前は、CV アルゴリズムは比較的弱く、プロキシ タスクの精度は高くありませんでした。当時、エージェンシータスクの追求が主に AGI の開発を促進しました。しかし、過去 10 年間、ディープラーニングの発展に伴い、さまざまなエージェント タスクが高度に飽和してきました。ImageNet-1K データセットでは、トップ 1 の分類精度は、以前のディープ ラーニング時代の 50% 未満から 90% 以上に増加しました。現時点で、エージェントタスクの精度を向上させ続ければ、AGIに近づけなくなるか、逆行する可能性があります。GPT の出現は、この観点をさらに裏付けています。AGI に近いモデルの出現後、翻訳や固有表現の抽出など、元の分離された NLP エージェントのタスクはもはや重要ではなくなりました。

代理チェックメイト!

377c40af40dc9a4d77bcb0a1c2d24ef6.jpeg
図 3: CV の代理タスクは意味を失い、AGI から遠ざかることさえあります。

未来のパラダイム: 環境から学ぶ

私たちが想定する学習プロセスは図 4 (出典: Habitat[18] および ProcTHOR[19]) に示されており、次の段階に分かれています。

  • フェーズ0、環境構築。 さまざまな方法で仮想環境を構築し、環境の豊かさ、信頼性、対話性を可能な限り強化します。

  • フェーズ 1、生成的な事前トレーニング。 エージェントに環境を探索させ、自身のアクションを組み合わせて、将来何が起こるかを予測させます。これは GPT の事前トレーニング段階に対応し、タスクは次の単語を予測することです。このプロセスでは、CV アルゴリズムは現実世界の分布を記憶し、少数のサンプルでタスクを学習する機能を備えています。

  • フェーズ 2: 命令の微調整。 特定のオブジェクトの検索や他のエージェントとの対話など、特定のタスクを実行できるようにエージェントをトレーニングします。これは GPT の命令微調整タスクに対応しており、これも豊富なタスク記述と手動命令データに基づいています。このプロセスでは、タスクを完了するために、CV アルゴリズムがさまざまな視覚概念を習得し、オンデマンドで視覚信号を処理する能力を獲得する必要があります。

  • 下流ステージ (オプション)。 AGI モデルは、プロンプトベースの方法で従来の視覚タスクに使用できます。

3824041a70eadd7ad79273d4f865c5aa.jpeg
図 4: 環境を探索し、タスクを完了し、下流の認識タスクに移行する、想定される将来の CV トレーニング プロセス。

このようなプロセスでは、プロキシ タスクは、一般的なタスクのトレーニング後に「スムーズに」取得するアルゴリズムの機能にすぎないことに注意してください。しかし、現在の履歴書調査のほとんどは、代理店のタスクを唯一の追求とみなしており、実際には本末転倒です。

上記のプロセスを達成するには、多くの困難があります。3つの段階から分析していきます。

  • より複雑な仮想環境。 現在、仮想環境を構築するには主に 2 つの方法があります。1 つは実データに基づく仮想環境です 。実際のシーン データを収集し、それを点群、メッシュ、神経放射場 (NeRF) などのデータ構造にモデル化し、高速かつ大規模なレンダリングをサポートします。このアプローチのコストは比較的高く、実稼働環境をスケールアップするのは困難です。現在利用可能な 3D データセット (Habitat [18] など) は 2D データセットよりも数桁小さく、依然として特定の特別なシーン (屋内や街路のシーンなど) に限定されています。2 つ目は、シミュレーション手法を通じて仮想環境を構築することです。つまり、 仮想データを直接サンプリングし、3D モデリングと生成アルゴリズム (GAN および拡散モデルを含む) を通じて 3D 環境をレンダリングします。このアプローチでは環境をバッチで生成できますが (ProcTHOR [19] など)、現実世界のデータ分布を復元するのは簡単ではありません。一方で、画像には通常、(たとえ肉眼で観察することが困難であっても)アルゴリズムの学習に影響を与えるアーティファクトが含まれているため、仮想データでトレーニングされたモデルの転送可能性を保証することが困難になります。しかし、どの方法を使用しても、仮想環境のサイズと現実性が要件を満たすことができず、AI アルゴリズムが環境内の他のエージェントと対話できるようにすることは困難です。

  • より複雑なデータ構造。 NLP のデータ構造は比較的単純であり、当然「単語」などの分離不可能な基本的な意味単位があり [20]、これらの離散単位を処理するためにトランスフォーマーなどの構造が自然に設計されており、タスク レベルで NLP は事前に-training はコンテキスト生成 (一般に cloze として知られています) ですが、すべての下流タスクもコンテキスト生成としてモデル化します。このようなシームレスなフレームワークにより、NLP の事前トレーニング タスクと下流のタスクの間のギャップが非常に小さくなります。ただし、CV のデータ構造ははるかに複雑です。この複雑さは画像の高次元に反映されるだけでなく、画像の基本的な意味単位を定義する難しさにも反映されます。この場合、やみくもに「宿題をコピー」し、画像を強制的にトークンに分割してトランスフォーマー アーキテクチャを適用することは、明らかに最善の解決策ではありません。現在、私はトークンは単なる幻想、便宜的な方法であり、視覚表現の数学的性質に本当に適しており、それを明らかにするにはさらなる研究が必要であると考える傾向がますます高まっています。

  • より複雑な実践的なタスク。 明らかに、CV 信号を導入した後、エージェントは環境と対話することで、ますます複雑なタスクを完了できるようになります。NLP の複数ターンの対話と比較して、これらのタスクは形式がより複雑で、データ モダリティが豊富で、より多様です。命令微調整手法を使用すれば、より多くのデータが収集され、実際のエージェントの行動パターンも導入されることが期待できます。これには、データ量とデータの複雑さに対する要件が高くなります。

最近、私たちはいくつかの興味深い作品に気づきました。そのような研究の 1 つが PaLM-E [21] です。これは、クロスモーダル基本モデルを使用して、身体化されたビジョン アルゴリズムをガイドし、その機能を強化します。PaLM-E ほど有名ではありませんが、より興味深いもう 1 つの研究は、環境モデリングと命令学習の両方をシーケンス予測の形式としてモデル化し、上記のフレームワークのプロトタイプを実現する ENTL[22] です。これらの取り組みは、環境での学習への道を照らし、これに基づいて、システム設計とエンジニアリングの最適化とともに、CV 統合の明るい未来が見えてくるでしょう。

まとめ

AI の先駆者たちは、ダートマス会議への提案書の中で、一見平凡だが信じられないほど難しい問題、つまりコンピューターはどのようにして人間の言語を話せるようになるのかについて書きました。何十年にもわたる努力の末、研究者たちはついに NLP 分野で AGI の夜明けを目にしましたが、CV 分野はまだこの目標には程遠いです。現在の CV のジレンマの本質的な理由は、CV 分野が「環境から学ぶ」というパラダイムを確立していないため、環境をサンプリングしてエージェントのタスクを設計することしかできず、システム レベルで閉ループを形成できないことにあります。将来、CVの統一を達成するには、既存のフレームワークを放棄し、CVアルゴリズムがその能力を強化し、環境との相互作用の中で継続的に進化できるように、新しい具現化パラダイムを設計する必要があります。

感情的な思考

最近、ちょっと衝動的な議論をよく目にします。最も一般的なのは、AI があらゆるものに革命を起こし、ほとんどの AI 実践者を排除し、最終的には一般的な失業を達成するというものです (最後の文を取り消します)。合理的な実践者として、私は CV アルゴリズムの能力がまだ比較的限定的であり、依然として多くの困難な点があることを知っています。しかし、1 つ確かなことは、大規模言語モデル (LLM) はすでに強力な意図理解機能と予備的な論理的推論機能を備えており、AI が人間とコミュニケーションするための「中心システム」となる条件を満たしているということです。これが事実になれば、この技術的なルートは確立されます。今後 3 ~ 5 年、あるいはそれ以上で業界がやるべきことは 2 つだけです。中央システムの強化を継続する (LLM の強化またはそのマルチモーダル バリアントの構築、システムの改善)。機能をモジュラー形式で提供し、このパラダイムを CV フィールドに再現します。現在、大型モデルが将来かどうかを議論することは無意味であり、私たちがしなければならないのは、CV で大型モデルが実際に使用されるための道を切り開き、準備することです。

現在、ラージモデルはディープラーニングそのものに匹敵する革新的な技術となり、技術革命が起きそうな勢いです。大型モデルが定義する新時代において、私たち一人ひとりは初心者です。エージェンシー・タスクに代表される古い時代の残存物はやがてその価値を失い、新しい手法を果敢に受け入れることができない者もエージェンシー・タスクとともに滅びるだろう。

付録

以下の文章は、上記の考え方を補足するものであり、まだ体系化されていない考え方でもあります。

履歴書の根本的な難しさについて語る

昨年の記事で、私は CV の 3 つの基本的な問題、つまり情報の希薄性、ドメイン間の差異、および無限の粒度について説明し、それらがサンプリング + エージェント タスクのパラダイムの副作用であることを指摘しまし記事へのリンクは次のとおりです。

https://zhuanlan.zhihu.com/p/558646681

重要な箇所を以下に抜粋します。

基本的に、自然言語は人間が知識を蓄積し、情報を交換するために作成した媒体であるため、効率が高く、情報密度が高いという特性が必要ですが、画像は人間がさまざまなセンサーを通じて捉えた光信号であり、現実を客観的に反映することができます。しかし、それに応じて強力なセマンティクスを持たず、情報密度が非常に低くなる可能性があります。別の観点から見ると、画像空間はテキスト空間よりもはるかに大きく、空間の構造もはるかに複雑です。つまり、空間内で多数のサンプルをサンプリングし、これらのデータを使用して空間全体の分布を表す場合、サンプリングされた画像データは、サンプリングされたテキスト データよりも何桁も大きくなければなりません。ちなみに、これは自然言語事前トレーニング モデルが視覚事前トレーニング モデルよりもよく使用される本質的な理由でもあります。これについては後で説明します。上記の分析によれば、CV と NLP の違いを通じて、CV の最初の基本的な困難、つまり意味的スパース性が導入されました。他の 2 つの問題、ドメイン間の多様性と無限の粒度も、前述の本質的な違いに多少関連しています。画像サンプリングではセマンティクスが考慮されていないため、異なるドメイン (つまり、昼と夜、晴れと雨などの異なる分布) をサンプリングする場合、サンプリング結果 (つまり、画像ピクセル) は、ドメインの特性により、と の間にドメインの違いが生じます。同時に、画像の基本的な意味単位は定義するのが難しく(テキストは定義するのが簡単ですが)、画像によって表現される情報は豊富で多様であるため、人間は画像からほぼ無限に細かい意味情報を取得できます。現在の CV フィールドを超えて、無限の粒度である評価指標によって定義される能力[23]。

さらに分析すると、興味深い結論が得られます。CV の本質的な難しさは、視覚信号に対する人間の理解が限られていることにあります。人間は視覚信号の構造を実際に把握したことはなく、視覚信号に対する特別な言語を定義したことさえなく、自然言語を通じてのみ視覚信号を参照し表現することができます。多くの明確な証拠がこの点を表しています: ほとんどの人にとって、トレーニングなしでリアルな画像を描くことは困難です (これは、人間が画像のデータ分布を把握していないことを示しています); 同時に、ほとんどの人が描画することも困難です言語コミュニケーションによるリアルな画像。画像の意味を他の人に正確に表現します。2 人が音声で会話し、コンピューター上で同じ画像を見ている場合でも、純粋な画像を通して画像内のいくつかの詳細な要素を参照したい場合に使用します。言語コミュニケーションは難しいですが、必ずしも簡単ではありません。

CV の 3 つの基本的な困難を再検討すると、それらが統一され、視覚信号の主観的で不確実な表現粒度、または客観的な視覚信号の追求と簡潔な意味信号の追求の間の矛盾に反映される可能性があることがわかります。表現の粒度が大きい場合(つまり、意味信号の単純性の追求)、人間は視覚情報を比較的簡潔に表現できるため、視覚信号は意味的なスパーシティを持っていると考えられますが、表現の粒度が小さい場合(つまり、視覚信号の客観性の追求) 人間は、画像中の豊富な視覚情報を認識できるとき、その視覚信号は無限の粒度を持っていると考えるが、その表現粒度が不確かなとき、人間は対応することが困難である。連続的に変化する視覚信号を離散的な意味空間に変換するため、視覚的に信号が変化するが意味論が変化しない範囲では、ドメイン間の差異が生じます [24]。

さらに、情報の希薄性と無限の粒度の間の矛盾は、主に従来のエージェントのタスクに反映されていることを指摘する必要があります。このとき、情報圧縮を指標とするなど表現の効率を追求すると、きめ細かく正確な認識を確保することが困難になる。このような矛盾を回避する唯一の解決策は、エージェントがタスクに応じて視覚信号の粒度を調整できる現実的な対話環境を構築することです。

CV と NLP を再度比較すると、NLP は粒度の不確実性の問題をうまく回避していることがわかります。NLP で処理されるテキスト信号は人工的に作成されるため、その粒度はテキストそのものの粒度になります。この粒度は可変ですが (たとえば、オブジェクトやシーンを言語で説明する場合、正確に記述することも、大まかに記述することもできます)、人間がこの粒度を決定し、それが実際のニーズと一致していることを確認します。

NLP の粒度が比較的明確になったので、CV がタスクを完了するのに役立ちますか? 以前のほぼすべての CV メソッドでは、粒度の定義に NLP が使用されていることがわかりました。典型的な例としては、分類ベースのタスクと言語参照タスクの 2 つがあります。これら 2 つの方法の欠点についても前回の記事で分析しましたが、その抜粋は次のとおりです。

分類ベースの手法: これには、伝統的な意味での分類、検出、セグメンテーションなどの手法が含まれます。その基本的な特徴は、画像内の各基本的な意味単位 (画像、ボックス、マスク、キーポイントなど) にカテゴリ ラベルを割り当てることです。 。この方法の致命的な欠陥は、認識の粒度が高くなると必然的に認識の確実性が低下する、つまり粒度と確実性が矛盾することである。例えば、ImageNetでは「家具」と「電化製品」という2つのカテゴリがあり、当然「椅子」は「家具」、「テレビ」は「家電」に属しますが、「マッサージチェア」は「家具」に属します。 」または「家電製品」を判断するのが難しい - これは、意味の粒度の増加によって引き起こされる確実性の低下です。写真の中に解像度の低い「人物」が存在し、その「人物」の「頭」や「目」までを強制的にラベル付けした場合、ラベラーによって判断が異なる可能性がありますが、現時点では1 つまたは 2 つのピクセル この偏差は、IoU などの指標にも大きな影響を与えます。これは、空間粒度の増加によって引き起こされる確実性の低下です。言語駆動型の方法: これには、CLIP によって駆動される視覚的なプロンプト方式や、長期にわたる視覚的グラウンディングの問題などが含まれます。基本的な特徴は、言語を使用して画像内の意味情報を参照および識別することです。言語の導入は確かに認識の柔軟性を高め、自然なオープンドメイン特性をもたらしました。ただし、言語自体の参照能力は限られており (数百人がいるシーンで特定の個人を参照することを想像してください)、無限に細かい視覚認識のニーズを満たすことができません。結局のところ、視覚認識の分野では、言語は視覚を補助する役割を果たすべきであり、既存の視覚プロンプト手法はやや圧倒されます。

ここまで言いましたが、私は依然として問題の根本的な核心に戻ります。つまり、視覚はそれ自体の言語を定義しないのです。現在表示されているメソッドはすべて NLP を使用して CV を定義します。これらの方法で CV の主な問題は解決できますが、それを深く探求したい場合は、頭を骨折する必要があります。

CVの開発段階

NLP 分野における GPT パラダイムの大成功は、CV 研究者を少し悩ませていることは明らかです。NLP の開発パスに従い、NLP は GPT-1 ステージで大規模なモデルを構築し、GPT-3 ステージで機能の出現を観察し、その後、ChatGPT ステージで特定のタスクを解決するために命令学習を使用しました。

したがって、非常に重要な質問は、現在の履歴書研究はどの段階に達しているのかということです。

4 月末、私は VALSE オンライン セミナーのパネル セッションに参加しました。そのときの質問の 1 つは、「SAM はコンピュータ ビジョンの問題を解決できるのか、それとも GPT-3 のレベルに達しているのか (つまり、強力な CV を実現できるため)」というものでした。このベースのアルゴリズムに基づいて構築されています)。私が出した結論は非常に悲観的です。SA​​M は GPT-3 のレベルに達しておらず、GPT-1 にも程遠いです。最も重要な理由は、履歴書が適切な学習環境を構築していないことです。前述したように、NLP は対話環境を構築し、対話タスクの学習パラダイムと指導の微調整を設計します。CV がこのプロセスに従いたい場合は、インタラクティブなタスクを構築し、対応する事前トレーニングおよび微調整タスクを設計する必要もあります。明らかに、現在の CV 学習パラダイムではこれが行われないため、CV の上流タスクと下流タスクが切り離されていると常に感じます。現在最もパフォーマンスの高い MIM メソッドでさえ、下流タスクとはほとんど関係がないようです。この問題を解決するには、ソースから始めて実際の学習環境を構築することになるでしょう。

次に、能力の創発の問題について議論します。業界は、なぜ NLP の大規模モデルで機能の出現を観察できるのかについて疑問を抱いているようです。私自身には大胆な仮説があります。それは、ケイパビリティの出現の前提は、トレーニング前のデータが現実世界の一定の割合をカバーしているということです。この場合、事前トレーニング モデルは過学習を心配する必要はありません。そのタスクはデータ分布を記憶することであるため、ある意味では過学習です。この仮説は、なぜ NLP が大規模なモデルを追求できるのかも明らかにします。過学習が心配な場合は、大きなモデルの方が学習能力が強いです。ここでは、NLP の小さな特徴空間とシンプルなデータ形式の利点が反映されており、CV がそのような状態を達成するには、より多くのデータとより大きな計算能力が必要です。

大まかに例えると、NLP はチェスのようなもので、CV は囲碁のようなものです。1996 年、スーパーコンピューターのディープ ブルーは、ヒューリスティック検索によってチェスの人間の世界チャンピオンに勝利しましたが、囲碁の状態空間はチェスの状態空間よりもはるかに大きいため、同様の方法を囲碁で再現することはできません。その後、深層学習の助けを借りて、Go のヒューリスティック機能が大幅に改善され、最終的にはより複雑な状態空間の探索をサポートできるようになりました。ディープラーニングがなければ、人間が超大規模な計算を積み重ねて同じ成果を達成するには数十年かかるかもしれません。ディープラーニングの出現により、このプロセスが大幅に加速されました。

CVの開発に戻ります。確かに、現在のデータ収集と計算の速度の向上によれば、おそらく十分な時間が経てば、CV も現在の NLP レベルに到達できるでしょう。しかし、その前に、CV が NLP に追いつくプロセスを加速する技術的なブレークスルーがなければならないと私は信じています。そして、当社の CV 研究者の使命は、このテクノロジーを見つけること、または少なくとも正しい方向性を見つけることです。

今後の研究の方向性の展望

上記の議論を経て、将来の CV パイプラインはすでに形になっています。それは、対話型環境に基づいた生成的な事前トレーニングと命令の微調整方法です。これは必ずしも唯一のルートではありませんが、NLP からインスピレーションを得た可能性が最も高いルートです。それを実現するためには多くの困難がありますが、方向性が特定されている限り、現在の困難は最も有望な研究方向に相当します。

一歩下がって、上記のパイプラインを短期的に達成することが難しい場合、CV は可能な限り NLP の機能を吸収して、全体的な機能を向上させる必要があります。明らかに、純粋に画像信号に基づく CV 研究はますます少なくなり、言語統合に関するクロスモーダル研究が絶対的な主流になるでしょう。CLIP または同様のマルチモーダル基本モデルが特徴抽出に使用される限り、それはクロスモーダル思考を受け入れる。このルートでは、最も重要な研究の方向性は、「画像が自然言語と相互作用する方法を見つける」、またはさらに「画像自体の言語を見つける」と要約できます。これは、インタラクティブなタスクにも重要です。

重要な研究の方向性には次のようなものがあります。

  • [環境構築] 新しい3D 表現手法は、NeRF、点群、その他のデータ構造と組み合わせて、大規模で現実的で可動性とインタラクティブな具体化環境を構築することを目的としています。

  • 【環境構築】エージェントの行動パターンの進化に基づく進化アルゴリズムを含むエージェント行動シミュレーション。

  • [生成的事前トレーニング] 新しい自己回帰的事前トレーニング方法。ニューラル ネットワーク アーキテクチャの設計では、プロキシ タスクの精度ではなく、事前トレーニングの効果を追求する必要があります。視覚信号の冗長性に対処するには、動的圧縮率が良い指標になる可能性があります。

  • 【生成型事前学習】画像テキスト生成アルゴリズムは環境構築を支援するだけでなく、事前学習の評価指標にもなります。

  • [命令の微調整]さまざまな種類のビジュアル タスクをプロンプトの形式で統合し、同じコンピューティング モデルのセットができるだけ多くのタスクに適応できるようにします。ところで、SAM は分離のアイデアを提供します。これは、セマンティクスを弱めるという前提の下で、セグメンテーションの基本単位が非常に汎用性があることを証明します。従来のフレームワークの下では、複雑なタスクを基本単位に分離することについては、私はより楽観的です。

  • [命令の微調整]人間とコンピュータのインタラクションの新しい方法を定義し、人間によるデモンストレーションを通じて十分な命令データを収集します。

参考

  1. ^ abcBubeck S、Chandrasekaran V、Eldan R、他。汎用人工知能の火花: gpt-4[J] による初期の実験。arXiv プレプリント arXiv:2303.12712、2023。

  2. ^Rombach R、Blattmann A、Lorenz D、他。潜在拡散モデルを使用した高解像度画像合成[C]//コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2022: 10684-10695。

  3. ^Zhang L、Agrawala M. テキストから画像への拡散モデルに条件付き制御を追加[J]。arXiv プレプリント arXiv:2302.05543、2023。

  4. ^abKirillov A、Mintun E、Ravi N、他。何でもセグメント化します[J]。arXiv プレプリント arXiv:2304.02643、

  5. ^ゲルツェル B 汎用人工知能[M]。ニューヨーク:スプリンガー、2007年。

  6. ^Kokkinos I. Ubernet: 多様なデータセットと限られたメモリを使用した、低レベル、中レベル、および高レベルのビジョンのためのユニバーサル畳み込みニューラル ネットワークのトレーニング[C]//コンピューター ビジョンとパターン認識に関する IEEE 会議の議事録。2017: 6129-6138。

  7. ^ラドフォード A、キム JW、ハラシー C、他。自然言語監視から転送可能な視覚モデルを学習[C]//機械学習に関する国際会議。PMLR、2021: 8748-8763。

  8. ^リード S、ゾルナ K、パリゾット E、他。ジェネラリストエージェント[J]。機械学習研究に関する取引。

  9. ^Chen T、Saxena S、Li L、他。Pix2seq: オブジェクト検出のための言語モデリング フレームワーク[J]。arXiv プレプリント arXiv:2109.10852、2021。

  10. ^Wang P、Yang A、Men R、他 Ofa: シンプルなシーケンスツーシーケンス学習フレームワークを通じてアーキテクチャ、タスク、およびモダリティを統合する[C]//機械学習に関する国際会議。PMLR、2022: 23318-23340。

  11. ^Wang X、Wang W、Cao Y 他 画像は画像で語る: コンテキスト内視覚学習のためのジェネラリスト ペインター[C]//コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2023: 6830-6839。

  12. ^Wang X、Zhang X、Cao Y 他 Seggpt: コンテキスト内のすべてをセグメント化します[J]。arXiv プレプリント arXiv:2304.03284、2023。

  13. ^ジョンソン J、ハリハラン B、ヴァン デル マーテン L、他。視覚的推論のためのプログラムの推論と実行[C]//コンピューター ビジョンに関する IEEE 国際会議の議事録。2017: 2989-2998。

  14. ^Li J、Li D、Savarese S、他。Blip-2: フリーズされた画像エンコーダと大規模な言語モデルを使用した言語画像の事前トレーニングのブートストラップ[J]。arXiv プレプリント arXiv:2301.12597、2023。

  15. ^Liu H、Li C、Wu Q 他 視覚的な指示のチューニング[J]。arXiv プレプリント arXiv:2304.08485、2023。

  16. ^Zhu D、Chen J、Shen X 他 Minigpt-4: 高度な大規模言語モデルによる視覚言語理解の強化[J]。arXiv プレプリント arXiv:2304.10592、2023。

  17. ^Marr D. Vision: 人間の表現と視覚情報の処理に関する計算による研究[M]。MIT プレス、2010 年。

  18. ^abSavva M、Kadian A、Maksymets O、他。ハビタット: 身体化された AI 研究のためのプラットフォーム[C]//コンピューター ビジョンに関する IEEE/CVF 国際会議の議事録。2019: 9339-9347。

  19. ^abDeitke M、VanderBilt E、Herrasti A、他。Procthor: 手続き型生成を使用した大規模な具体化された AI [J]。arXiv プレプリント arXiv:2206.06994、2022。

  20. ^処理の便宜上、人々は単語をサブトークンに分割しますが、それでも分離できない基本単位が存在します。

  21. ^Driess D、Xia F、Sajjadi MSM、他。Palm-e: 具現化されたマルチモーダル言語モデル[J]。arXiv プレプリント arXiv:2303.03378、2023。

  22. ^Kotar K、Walsman A、Mottaghi R. ENTL: 身体化されたナビゲーション軌道学習者[J]。arXiv プレプリント arXiv:2304.02639、2023。

  23. ^Tang C、Xie L、Zhang X、他。要求による視覚認識[C]//コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2023: 15265-15274。

  24. ^氷の塊が徐々に水に溶けていく、または黒い立方体が徐々に白に変わっていく様子を想像してください。これらのプロセスでは、多くの場合、意味論が変化する、ある種の (不正確な) 量的境界が存在します。しかし、セマンティクスは離散的ですが、視覚信号の変化は連続的であり、変化しないセマンティクスの範囲内では、視覚信号はドメイン間の違いを反映します。

(1)動画講座はこちら!

自動運転の心臓部は、ミリ波レーダービジョンフュージョン、高精度地図、BEV知覚、マルチセンサーキャリブレーション、センサー展開、自動運転協調知覚、セマンティックセグメンテーション、自動運転シミュレーション、L4知覚、意思決定計画、軌道予測を統合します。 、など、各方向の学習ビデオ。ご自身で受講することを歓迎します (コードをスキャンして学習を入力してください)。

a4f08974db7aa30bc5fac3debc1596a5.png

(コードをスキャンして最新のビデオをご覧ください)

動画公式サイト:www.zdjszx.com

(2) 中国初の自動運転学習コミュニティ

1,000 人近くのコミュニケーション コミュニティと 20 以上の自動運転技術スタックの学習ルートが、自動運転の認識 (分類、検出、セグメンテーション、キー ポイント、車線境界線、3D 物体検出、占有、マルチセンサー フュージョン、物体追跡、オプティカル フロー推定、軌道予測)、自動運転位置決めとマッピング(SLAM、高精度マップ)、自動運転計画と制御、フィールド技術ソリューション、AI モデル展開の実装、業界トレンド、求人リリース、スキャンへようこそ以下の QR コード、自動運転の中心となるナレッジ プラネットに参加してください。ここは本物の乾物がある場所です。この分野の大手の人々と、仕事の開始、勉強、仕事、転職に関するさまざまな問題を交換し、論文 + コードを共有します。毎日+ビデオ、交換を楽しみにしています!

a8f77f5d20b75583484e45ffd6c5e231.jpeg

(3) 自動運転の心臓部】フルスタック技術交流会

The Heart of Autonomous Driving は、物体検出、セマンティック セグメンテーション、パノラマ セグメンテーション、インスタンス セグメンテーション、キー ポイント検出、車線境界線、物体追跡、3D 物体検出、BEV 認識、マルチセンサー フュージョン、 SLAM、光流推定、深さ推定、軌道予測、高精度地図、NeRF、計画制御、モデル展開、自動運転シミュレーションテスト、プロダクトマネージャー、ハードウェア構成、AI求人検索とコミュニケーションなど。

b1543ce857ca92407816caf76969dcd6.jpeg

Autobot Assistant Wechat への招待を追加してグループに参加します

備考:学校/会社+方向+ニックネーム

おすすめ

転載: blog.csdn.net/CV_Autobot/article/details/131356286