SF から現実へ、LLM エージェントはどこまで進んだのでしょうか?

LLM の洪水が押し寄せ、AI の波が世界中を席巻し、業界の認識に常に影響を与えているこの年に、Agent は新星として開発者の注目を集めています。OpenAI の科学者である Andrej Karpathy 氏はかつて、「OpenAI は大規模モデルの分野では一歩先を行っていますが、エージェントの分野では他の企業と同じスタートラインに立っている」と述べました。

これに関連して、AI 実務者は、LLM に基づくエージェントがチャンスに満ちた新しいブルー オーシャン分野になると強く信じています。

では、エージェントとは一体何なのでしょうか? そのフレームワークはどのように機能するのでしょうか? この段階ではどのような問題が存在しますか? 将来の可能性は何ですか? この記事ではいくつかの考えを共有します。

01.エージェントとは何ですか?

OpenAI 科学者 Lilian Weng によるエージェント図 [1] によると、エージェントはいくつかのコンポーネントで構成されていることがわかります。

計画モジュール

  • サブ目標の分解: エージェントは、複雑なタスクをより効率的に処理するために、目標をより小さく管理しやすいサブ目標に分割します。

  • 反省と調整: エージェントは、過去の行動を自己批判および反省し、間違いから学び、今後のステップを改善して最終結果の品質を向上させることができます。

メモリモジュール

  • 短期記憶: これは通常、プロンプト エンジニアリングを使用してモデルが特定の学習を実行できるようにする、コンテキスト内学習を指します。

  • 長期記憶: これにより、通常は外部ベクトル ストレージと迅速な検索を利用して、エージェントが長期間にわたって情報を保持し、呼び出すことができます。

ツール使用モジュール

エージェントは、外部 API を呼び出して、現在の情報、コード実行機能、独自の情報ソースへのアクセスなど、モデルの重みに欠けている追加情報 (通常、事前トレーニング後に変更するのは困難) を取得する方法を学習します。

したがって、エージェントが複雑なタスクを処理する目標を受け取ると、最初にタスクを分解してサブタスクを実行します。大規模モデルへの各呼び出しは短期記憶を通じて接続されるため、大規模モデルは現在のタスクを理解できます。タスク処理のステータス。次に、エージェントは、タスクのステータスに基づいてモデルがタスクを処理するのに役立つ情報を取得する必要があります。この情報には、タスクに関連する履歴情報や追加情報が含まれます。

大規模モデルには一定の認知機能があるため、必要な情報が正確に定義できない場合、現在の状態に関連する情報を整理し、大規模モデルに必要な内容を自律的に抽出させることができます。したがって、正確なキーワード一致に基づく検索方法と比較して、ベクトルデータベースが有する意味相関に基づくあいまい検索は、この点でエージェントフレームワークで広く支持されています。長期メモリをデータベース (ベクター データベースまたは従来のデータベース) に保存し、実行中に必要に応じて取得することにより、モデルは実行経験を積み、タスクの実行中に全体的な状態を認識できます。

02. エージェント フレームワークの仕組み

AutoGPT を例として、エージェント フレームワークがどのように機能するかを見てみましょう。

AutoGPT[2] は GPT-4 を使用してタスクを生成、優先順位付け、実行すると同時に、インターネットの閲覧やその他のアクセスにプラグインを使用します。AutoGPT は外部メモリを使用して動作を追跡し、コンテキストを提供することで、状況を評価し、新しいタスクを生成または自己修正し、新しいタスクをキューに追加して優先順位を付けることができます。

別の有名なプロジェクト babyagi[3] も同様のアプローチを採用しています。エージェントと一般的な LLM の最大の違いは、LLM エージェントは通常、タスクの全体的な目標に従ってサブ目標を指定および配置するのに対し、LLM は通常、ワークフロー内の特定のタスクの実行者として機能する呼び出されるツールとして使用されることです。 。

03. LLMエージェントの現段階で発生している問題

一部の LLM (GPT-4) は、驚くべき自然言語の理解と生成機能をもたらし、非常に複雑なタスクを処理できるため、LLM エージェントはかつて、SF 映画に対するすべての人々の憧れを満たす究極の答えとなりました。しかし、実際に使用してみると、一般的な人工知能への道は一夜にして達成するのは簡単ではないことが徐々に分かってきました。

  • エージェントが特定のタスクの処理中にループに陥ってしまう

  • プロンプトはますます長くなり、最終的にはコンテンツの最大長を超えることもあります

  • メモリ モジュールの戦略は LLM に重要な情報を与えないため、実行エラーが発生します。

  • LLM ツールを間違って使用したり、幻覚の問題により物事を放置したりする

上記の問題は、誰もがエージェントを理解するにつれて表面化し始めています。これらの問題のいくつかは LLM 自体で解決する必要があり、いくつかはエージェント フレームワークによって解決する必要もあります。一般的なエージェントはまださらに洗練される必要があります。

04.エージェントの展望

現在、ほとんどの LLM エージェントは実験および概念実証の段階にあり、エージェントの機能を継続的に改善することによってのみ、エージェントを SF から現実へと真に移行させることができます。もちろん、LLM エージェントを取り巻く生態系が徐々に充実し始めていることもわかり、ほとんどの作業は調査のために次の 3 つの側面に分類できます。

エージェントモデル

AgentBench[4] は、LLM によってエージェントの処理能力に大きな違いがあると指摘しました。現在の gpt-4 (0613) バージョンは、LLM 独自の論理推論機能と長いプロンプトにより、同様の競合製品よりも大幅に優れています。エージェントにとって非常に重要な要素です。

sToolLLM[5] は、軽量 LLaMA を使用して、より複雑な大規模モデルから API を理解して使用する能力を学習し、この能力を軽量モデルに適用することを期待しています。

エージェントフレームワーク

Lilian Weng によってリストされたすべてのコンポーネントには検討の余地があります。現在、より学術的な検討は、COT[6]、ReAct[7]、Reflexion[8] などの一連の手法から、LLM 推論の能力を向上させるフレームワークを使用することです。など。これらはすべてプロンプトを使用して、大規模モデルを変更せずに大規模モデルの合理性を改善します。記憶と検索に関しては、現在コンテンツをデータベースや検索エンジンに保存することが一般的ですが、Refexionでは、実行中の観察は軌跡の形で短期記憶に保存され、受信後の評価と内省によって要約された経験が得られると考えています。フィードバックは長期記憶に残ります。他の方向では、AutoGen [9] はマルチエージェント間の通信とコラボレーションも研究しています。

エージェントアプリケーション

現実世界には不確実性が多すぎるため、真のエージェントを実現するまでの道のりは長く困難です。特定の制御可能な環境では、エージェントは工場内の需要と供給を実装するロボットのように設計でき、より多くのシーン特性をターゲットにして、いくつかの特定のタスクをより適切に完了し、期待される結果を達成できます。

MetaGPT[10] はソフトウェア開発シナリオ用のエージェントであり、この特定のシナリオでは、異なるスキルを持つさまざまな役割が協力してこのタスクを完了するように設計されています。Voyager[11] は、Minecraft 内で独自に探索し、スキルを学習し、小道具を合成できるエージェントです。VoxPoser は、RGB-D 情報と LLM の推論機能を組み合わせることにより、より複雑なロボットの掴み操作を完了できます。現時点では、エージェントはまだ完全に信頼できるわけではありませんが、より多くのシナリオを想定して設計すると、ほとんどの単純なシナリオでエージェントが失敗しないことが保証されます。

私たちは無限の可能性を秘めた瞬間にいます。そこでは、人工知能の進歩が私たちの未来を形作っていきます。LLM エージェントは間違いなくこの進化のハイライトの 1 つです。人々は人工知能を探求しており、最終的には人工知能が人間が自分ではできない複雑なタスクを完了できるように支援してくれることを望んでいます。エージェントは自動化から知能への移行における重要なマイルストーンです...

参考リンク

[1] https://lilianweng.github.io/

[2] https://github.com/Significant-Gravitas/Auto-GPT

[3] https://github.com/yoheinakajima/babyagi

[4] https://arxiv.org/abs/2308.03688

[5] https://arxiv.org/abs/2307.16789

[6] https://arxiv.org/abs/2201.11903

[7] https://arxiv.org/abs/2210.03629

[8] https://arxiv.org/abs/2303.11366

[9] https://arxiv.org/abs/2308.08155

[10] https://arxiv.org/abs/2308.00352

[11] https://arxiv.org/abs/2305.16291

[12] https://arxiv.org/abs/2307.05973

Alibaba Cloudが深刻な障害に見舞われ、全製品が影響(復旧) Tumblr がロシアのオペレーティングシステムAurora OS 5.0 を冷却新しいUIが公開 Delphi 12とC++ Builder 12、RAD Studio 12多くのインターネット企業がHongmengプログラマーを緊急採用UNIX時間17 億時代に突入しようとしている (すでに突入している) Meituan が兵力を募集し、Hongmeng システム アプリの開発を計画Amazon が Linux 上の .NET 8 への Android の依存を取り除くために Linux ベースのオペレーティング システムを開発独立した規模はFFmpeg 6.1「Heaviside」がリリースされまし
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4209276/blog/10140821