Jina AI 創設者 Xiao Han 博士: Auto-GPT の喧騒の背後にある残酷な真実を明らかにする

Auto-GPT は画期的なプロジェクトですか、それとも誇張された AI 実験ですか? この記事では、ノイズの背後にある真実を明らかにし、Auto-GPT が現実世界のアプリケーションに適さないという運用上の制限を明らかにします。


背景紹介

過去 2 日間で、最強の言語モデル GPT-4 が独立してタスクを完了できるモデルである Auto-GPT が一夜にして有名になり、AI サークル全体を熱狂させました。わずか 7 日間で、GitHub で 50,000 を超える驚くべき数のスターを獲得し、無数のオープンソース コミュニティの注目を集めました。

以前爆発的に普及した ChatGPT で唯一使いにくいのは、人間が Prompt を入力する必要があることです。Auto-GPT の大きな進歩は、AI が自らプロンプトを表示できることです。言い換えれば、AI は私たち人間をまったく必要としないということですか?

Auto-GPT のお祭り騒ぎの一方で、私たちは一歩下がってその潜在的な欠点を検証し、この「AI の天才」が直面する限界と課題について議論することも必要です。

次に、Xiao Han 博士が、Auto-GPT が画期的なプロジェクトなのか、それとも過剰に宣伝されている別の人工知能実験なのかについて話してくれます


自動 GPT はどのように機能しますか?

Auto-GPT は AI の分野に大きな波を起こしたと言わざるを得ません。これは GPT-4 にメモリとエンティティを与えたようなもので、独立してタスクに対処できるようになり、経験から学習してパフォーマンスを継続的に向上させることもできます。

Auto-GPT がどのように機能するかを理解しやすくするために、いくつかの簡単な比喩を使って説明してみましょう。

まず、Auto-GPT を機知に富んだロボットとして想像してください。

タスクを割り当てるたびに、Auto-GPT は対応する解決策を提示します。たとえば、インターネットを閲覧したり、新しいデータを使用したりする必要がある場合、タスクが完了するまで戦略を調整します。これは、市場分析、顧客サービス、マーケティング、財務などのさまざまなタスクを処理できるパーソナル アシスタントを抱えているようなものです。

具体的には、Auto-GPT を実行するには、次の 4 つのコンポーネントに依存する必要があります。

1. アーキテクチャ

Auto-GPT は、強力な GPT-4 および GPT-3.5 の大規模言語モデルを使用して構築されており、ロボットの脳として機能し、ロボットの思考と推論を支援します。

2. 独立した反復

それはロボットが失敗から学ぶ能力のようなものです。Auto-GPT は、その作業を振り返り、以前の取り組みに基づいて構築し、その履歴を使用してより正確な結果を生成できます。

3. メモリ管理

インメモリ ストレージ ソリューションであるベクトル データベースとの統合により、Auto-GPT はコンテキストを保持し、より適切な意思決定を行うことができます。それは、過去の経験を記憶できる長期記憶をロボットに装備するようなものです。

4. 多用途性

ファイル操作、Web ブラウジング、Auto-GPT のデータ取得などの機能により、Auto-GPT は多用途に使用できます。それは、より幅広いタスクを処理できるようにロボットに複数のスキルを与えるようなものです。

ただし、これらの魅力的な見通しは、Auto-GPT の実際に達成可能な機能にはまだ反映されていない可能性があります。

非常に高いコスト

実際の運用環境で Auto-GPT を使用したい場合、最初に直面する障害はコストが高いことです。

より適切な推論とプロンプトを提供するために、タスクは一連の思考の反復を通じて完了する必要があるため、通常、モデルの各ステップですべてのトークンが使い果たされます。

ただし、GPT-4 トークンは安くありません。

OpenAI の価格設定によると、8K コンテキスト ウィンドウを備えた GPT-4 モデルの料金は、ヒント部分が 1000 トークンあたり 0.03 ドル、結果部分が 1000 トークンあたり 0.06 ドルです。

そして、1000トークンは約750の英単語に変換できます。

各アクションが 8000 トークンのコンテキスト ウィンドウを使用し、そのうち 80% がヒント (6400 トークン)、20% が結果 (1600 トークン) であると仮定して、思考連鎖の各ステップのコストを分析してみましょう。

  • チップコスト: 6400 トークン x 0.03 ドル/1000 トークン = 0.192 ドル

  • 結果のコスト: 1600 トークン x 0.06 ドル / 1000 トークン = 0.096 ドル

したがって、ステップごとのコストは次のようになります: $0.192 + $0.096 = $0.288

Auto-GPT は、小さなタスクを完了するのに平均して 50 のステップを要します。

したがって、1 つのタスクを完了するコストは次のようになります: 50 ステップ x 0.288 ドル/ステップ = 14.4 ドル

VUEGPT THOUGHTS: Let's start by checking if there are any updates to VueJS. If there are, we can update to the latest version and proceed. Otherwise, we can move on to creating the TODO list website application.
REASONING: Starting with the most updated and stable version of the framework will ensure our project has the latest features, bug fixes and is properly supported. Creating the TODO list website application is our primary goal, so we can move on to that if there are no updates.
PLAN:
-  Check for VueJS updates
-  Update to latest version if there are updates
-  If no updates, move on to creating the TODO list website application
CRITICISM: None
NEXT ACTION:  COMMAND = google ARGUMENTS = {'input': 'VueJS latest version update'}
Enter 'y' to authorise command, 'y -N' to run N continuous commands, 'n' to exit program, or enter feedback for VueGPT...

VueGPT を例に挙げます。これは、Vue JS を使用して Web サイト アプリケーションを作成するように設計された Auto-GPT によって作成された AI です。思考の連鎖におけるそのステップの 1 つを見てみましょう。

そして、これは結果が一度生成される場合であり、再生成する必要がある場合はコストが高くなります。

この観点からすると、Auto-GPT は現在、ほとんどのユーザーや組織にとって非現実的です。

開発から実稼働までの課題

一見すると、複雑なタスクを完了するために 14.40 ドルを費やすのは良いアイデアのように思えるかもしれません。

例として、最初に Auto-GPT にクリスマスのレシピを作成するよう依頼しました。次に、感謝祭のレシピを聞いてみましょう。どうなるでしょうか?

そうです、Auto-GPT は同じ思考回路に従ってもう一度やり直します。つまり、さらに 14.4 ドルを費やす必要があります。

しかし実際には、これら 2 つのタスクの「パラメータ」の違いは 1 つだけです。それはフェスティバルです。

レシピを作成するメソッドの開発に 14.40 ドルを費やしたので、パラメーターの調整に同じ金額を費やすのは論理的ではありません。

Minecraft をプレイし、毎回すべてを最初から構築することを想像してみてください。明らかに、これではゲームが非常に退屈になります。

そして、これはAuto-GPT の根本的な問題を明らかにします。それは開発と運用を区別できないということです。

Auto-GPT がその目標を達成すると、開発フェーズは完了します。残念ながら、この一連の操作を実稼働用の再利用可能な関数に「シリアル化」する方法はありません。

したがって、ユーザーは問題を解決するたびに開発の出発点から開始する必要があり、これには時間と労力がかかるだけでなく、費用もかかります。

この非効率性により、現実の運用環境における Auto-GPT の有用性について疑問が生じ、大規模な問題解決に対して持続可能でコスト効率の高いソリューションを提供する際の Auto-GPT の限界が浮き彫りになります。

円形の泥沼

それでも、14.4 ドルで効果があるなら、それでも価値があります。

しかし問題は、実際にAuto-GPTを使うと無限ループに陥ってしまうことが多いということ…。

では、なぜ Auto-GPT がこのようなループに陥るのでしょうか?

これを理解するには、Auto-GPT を GPT に依存して、非常に単純なプログラミング言語を使用してタスクを解決すると考えることができます。

タスクを解決できるかどうかは、プログラミング言語で使用できる関数の範囲とGPT の分割統治能力、つまり GPT がタスクを事前定義されたプログラミング言語にどれだけうまく分解できるかという 2 つの要素によって決まります。残念ながら、GPT はこれらの点の両方において不十分です。

Auto-GPT によって提供される制限された機能は、そのソース コードで確認できます。たとえば、Web の検索、メモリの管理、ファイルの操作、コードの実行、画像の生成などの機能を提供します。ただし、この制限された機能セットにより、Auto-GPT が効果的に実行できるタスクの範囲が狭まります。

さらに、GPT の分解および推論能力にはまだ限界があります。GPT-4 は GPT-3.5 に比べて大幅に改善されていますが、その推論能力は完璧とは程遠く、Auto-GPT の問題解決能力はさらに制限されています。

この状況は、StarCraft のような複雑なゲームを Python で構築しようとしているのと似ています。Python は強力な言語ですが、StarCraft を Python 関数に分解するのは非常に困難です。

基本的に、限られた機能セットと GPT-4 の制約された推論機能の組み合わせがこのサイクルの泥沼を生み出すことになり、多くの場合 Auto-GPT が望ましい結果を達成できなくなりました。

人間とGPTの違い

Auto-GPT の鍵となるのは分割統治です。GPT-3.5/4 は以前のバージョンに比べて大幅に向上しましたが、分割統治を使用する場合、その推論能力は依然として人間のレベルに達しません。

1. 問題の分解が不十分である

分割統治の有効性は、複雑な問題をより小さく管理しやすいサブ問題に分解する能力に大きく依存します。人間の推論は問題を解決する複数の方法を見つけることができますが、GPT-3.5/4 は同レベルの適応性や創造性を備えていない可能性があります。

2. 適切な基本ケースを特定するのが難しい

人間は、効率的な解決策を得るために適切な基本ケースを直感的に選択できます。対照的に、GPT-3.5/4 は、特定の問題に対して最も効率的な基本ケースを決定するのに苦労する可能性があり、分割統治プロセスの全体的な効率と精度に大きな影響を与える可能性があります。

3. 問題背景の理解が不十分

人間は専門知識と背景理解を活用して複雑な問題にうまく対処できますが、GPT-3.5/4 は事前に訓練された知識によって制限されており、分割統治による一部の問題を効果的に解決するために必要な背景情報が不足している可能性があります。

4. 重複する部分問題への対処

人間は多くの場合、重複する部分問題を解決するときを認識し、以前に計算された解を戦略的に再利用できます。一方、GPT-3.5/4 は同程度の認識度を持たない可能性があり、同じ部分問題を複数回重複して解決する可能性があり、その結果、解決策の効率が低下します。

ベクトル データベース: 過剰なソリューション

Auto-GPT は、ベクトル データベースに依存して、k 最近傍 (kNN) 検索を高速化します。これらのデータベースは、以前の思考連鎖を取得し、現在のクエリのコンテキストに組み込んで、GPT に一種の記憶効果を提供します。

ただし、Auto-GPT の制約と制限を考慮すると、このアプローチは過度で不必要にリソースを消費するものとして批判されています。その中で、ベクトル データベースの使用に反対する主な議論は、Auto-GPT の一連の思考に関連するコストの制約に由来しています。

50 ステップの思考連鎖のコストは 14.4 ドル、1000 ステップの連鎖の場合はさらにコストがかかります。したがって、記憶サイズや思考連鎖の長さが 4 桁を超えることはほとんどありません。この場合、最近傍の徹底的な検索 (つまり、256 次元のベクトルと 10000 x 256 の行列の内積) が十分に効率的であることが証明され、所要時間は 1 秒未満でした。

比較すると、GPT-4 の各呼び出しの処理には約 10 秒かかるため、実際にシステムの処理速度を制限しているのはデータベースではなく GPT です。

kNN の「長期記憶」検索を高速化するために Auto-GPT システムにベクトル データベースを実装することは、不必要な贅沢で過剰な解決策のように思えますが、特定のシナリオでは、ベクトル データベースにはいくつかの点で利点がある可能性があります。

エージェント機構の誕生

Auto-GPT は、タスクを委任するエージェント (エージェント) を生成するための非常に興味深い概念を導入しています

ただし、このメカニズムはまだ初期段階にあり、その可能性が十分に活用されていません。それでも、現在のエージェント システムを強化および拡張して、より効率的で動的な対話の新たな可能性を開く方法はあります。

潜在的な改善策は、非同期エージェントを導入することです。非同期待機パターンを組み込むことにより、エージェントは互いにブロックすることなく同時に動作できるため、システム全体の効率と応答性が大幅に向上します。このコンセプトは、複数のタスクを同時に管理する非同期アプローチを採用した現代のプログラミング パラダイムからインスピレーションを得ています。

画像ソース: https://scutapm.com/blog/async-javascript

もう 1 つの有望な方向性は、**エージェントが相互に通信できるようにすることです。**エージェント間のコミュニケーションとコラボレーションを可能にすることで、協力して複雑な問題をより効果的に解決できます。このアプローチは、プログラミングにおける IPC の概念に似ており、複数のスレッド/プロセスが情報とリソースを共有して共通の目標を達成できます。

生成エージェントは未来の方法です

GPT を利用したエージェントが開発を続けるにつれて、この革新的なアプローチの将来は明るいように見えます。

「Generative Agents: Interactive Simulacra of Human Behavior」などの新しい研究は、信頼できる人間の行動をシミュレートするエージェントベースのシステムの可能性を強調しています。

この論文で提案されている生成エージェントは、複雑かつ魅力的な方法で相互作用し、意見を形成し、対話を開始し、自律的に活動を計画して参加することさえできます。この研究は、AI の開発においてエージェント メカニズムが有望であるという議論をさらに裏付けています。

Auto-GPT は、非同期プログラミングへのパラダイム シフトを受け入れ、エージェント間の通信を促進することにより、より効率的かつ動的な問題解決のための新たな可能性を切り開きます。

「生成エージェント」論文で紹介されたアーキテクチャと対話モードを統合すると、大規模な言語モデルとコンピューティングおよび対話型エージェントの統合を実現できます。この組み合わせは、AI フレームワーク内でタスクを割り当てて実行する方法に革命をもたらし、人間の行動のより現実的なシミュレーションを可能にする可能性があります。

エージェント システムの開発と探索により、AI アプリケーションの開発が大幅に促進され、複雑な問題に対してより強力で動的なソリューションが提供されます。

要約する

結論として、Auto-GPT をめぐる話題は、AI 研究の現状と、新興テクノロジーの誇大宣伝における国民の理解の役割について重要な疑問を引き起こしています。

上で示したように、推論機能、ベクトル データベースの過剰使用、エージェント メカニズムの開発の初期段階に関する Auto-GPT の限界は、実用的な解決策にはまだ遠いことを明らかにしています。

Auto-GPT を取り巻く誇大宣伝は、表面的な理解が期待の膨らみにつながり、最終的には AI の実際の能力についての歪んだ認識につながる可能性があることを思い出させます。

そうは言っても、Auto-GPT は、AI の将来の有望な方向性、つまり生成エージェント システムを示しています。

最後にハン・シャオ博士は、「Auto-GPTの誇大広告から学び、AI研究について、より微妙で情報に基づいた対話を促進しましょう。」と締めくくった。

このようにして、生成エージェント システムの変革力を活用して、AI 機能の限界を押し広げ続け、テクノロジーが真に人類に利益をもたらす未来を形作ることができます。

著者: Dr. Xiao Han、Jina AI 創設者兼 CEO
翻訳: 新志源編集

Jina AI (https://jina.ai) は、クラウド ネイティブ、MLOps、LMOps を利用して、企業と開発者が最高の検索および生成テクノロジーを利用できるようにします。そのコア製品である Finetuner+ は、高度な微調整テクノロジーを通じて企業向けにカスタマイズおよび民営化されています。モデル。GGV、Yunqi Capital、SAPなどの中国と米国の投資機関から総額3,750万米ドルの資金調達を得た。同社はドイツのベルリンに本社を置き、中国と米国にオフィスを構えています。チームメンバーは Microsoft、Google、Tencent、Adobe などのトップテクノロジー企業から構成されており、世界 10 か国以上をカバーしています。

おすすめ

転載: blog.csdn.net/Jina_AI/article/details/130201504
おすすめ