中国人民大学ハイカラー人工知能学院がAI自律エージェントのレビューを公開!32種類のAIエージェントを総合的に分析

出典 | AI協創シンクタンク

自律エージェントは、学界における重要な研究テーマです。この分野におけるこれまでの研究は通常、孤立した環境で限られた知識を持つエージェントを訓練することに焦点を当てていましたが、この環境は人間の学習プロセスとは大きく異なり、エージェントが人間のような意思決定を達成することが困難でした。

最近、大規模言語モデル (LLM) は、大量のネットワーク知識を取得することで人間レベルの知能を実現する大きな可能性を示しています。これは、LLM ベースの自律エージェントの研究の急増を引き起こしました。LLM の可能性を最大限に活用するために、研究者はさまざまなアプリケーションに適したさまざまなエージェント アーキテクチャを設計しました。

大規模モデル研究テストポータル

GPT-4 ポータル (壁がなく、ブラウザの警告ポイントが表示された場合は直接テストできます/引き続きアクセスします):
こんにちは、GPT4!

この論文では、これらの研究を包括的に調査し、全体的な観点から自律エージェントの分野を体系的にレビューします。より具体的には、私たちは LLM ベースのエージェントの構築に焦点を当てており、そのために以前の作業のほとんどを組み込んだ統一フレームワークを提案しています。さらに、社会科学、自然科学、工学における LLM ベースの AI エージェントのさまざまな応用についてもまとめます。最後に、LLM ベースの AI エージェントの一般的な評価戦略について説明します。

先行研究に基づいて、この分野におけるいくつかの課題と将来の方向性も提案します。現場を追跡し、調査を更新し続けるために、https://github.com/Paitesanshi/LLM-Agent-Survey でレポートします。

背景1枚

自律型エージェントは、自律的な計画と指示を通じてタスクを完了できる汎用人工知能 (AGI) への有望な道として長い間考えられてきました。

初期のパラダイムでは、エージェントのアクションを決定するポリシー機能はヒューリスティックを通じて考案され、その後環境への参加を通じて洗練されてきました [101、86、120、55、9、116]。しかし、明確なギャップがあり、特に制約のないオープンフィールド環境では、これらの政策機能は人間レベルの熟練度を再現できないことがよくあります。この不一致は、ヒューリスティックな設計に内在する潜在的な不正確さと、トレーニング環境によって提供される限定された知識に起因すると考えられます。

近年、大規模言語モデル (LLM) は目覚ましい成功を収め、人間のような知能を実現する可能性を実証しています [108、116、9、4、130、131]。この機能は、合成トレーニング データセットと多数のモデル パラメーターを組み合わせて利用することで実現します。この機能に後押しされて、LLM が自律エージェントを作成するためのコア コーディネーターとして使用される傾向が近年盛んになっています (この分野の成長傾向については図 1 を参照)。[19、125、123、115、119、161] 。
これらの手法は、人間のような意思決定プロセスを模倣し、それによってより複雑で適応性のある AI システムへの道を提供することを目的としています。

LLM ベースの自律エージェントの方向性に沿って、LLM が人間の行動を刺激し、一連のタスクを巧みに実行できるように、記憶や計画などの LLM の基本的な機能を強化することに重点を置いて、多くの有望なモデルが設計されています。

ただし、これらのモデルは独自に提案されたものであり、それらを包括的に要約して比較するための努力は限られています。既存の LLM ベースの自律エージェントの作業の包括的な概要分析は非常に重要であり、これはこの分野を包括的に理解するために重要であり、将来の研究に影響を与えます。

このペーパーでは、LLM ベースの自律エージェントの分野の包括的な調査を実施します。具体的には、LLM ベースの自律エージェントの構築、適用、評価の 3 つの側面から調査を構成します。

エージェント構築のために、次の 4 つのコンポーネントで構成される統一フレームワークを提案します。

  • エージェントのプロパティを表すプロファイル モジュール

  • 履歴情報を保存するためのメモリモジュール

  • 将来の行動に向けた戦略を策定するための計画モジュール

  • 計画決定を実行するためのアクション モジュール

1 つ以上のモジュールを無効にすることで、これまでの研究のほとんどをこのフレームワークの具体例として見ることができます。

典型的なエージェント モジュールを紹介した後、さまざまなアプリケーション シナリオへのエージェントの適応性を高めるための一般的な微調整戦略もまとめます。エージェントの構築に加えて、自律エージェントの潜在的な応用例を概説し、これらのエージェントが社会科学、自然科学、工学の分野をどのように強化できるかを探ります。最後に、主観的戦略と客観的戦略に焦点を当てて、自律エージェントを評価する方法について説明します。

結論として、この調査は体系的なレビューを提供し、LLM ベースの自律エージェントの分野における既存の研究の明確な分類を確立します。主にエージェントの構築、エージェントの適用、エージェントの評価の3 つの側面から説明します。

以前の研究に基づいて、この分野におけるいくつかの課題を特定し、潜在的な将来の方向性について議論します。この分野はまだ初期段階にあると考えているため、この分野の研究を追跡するために Github リポジトリを維持しています。

https://github.com/Paitesanshi/LLM-Agent-Survey。

2 LLMに基づく自律エージェントの構築

LLM ベースの自律エージェントは、LLM の人間のような能力に基づいてさまざまなタスクを効率的に完了することが期待されます。この目標を達成するには、
(1) LLM をより適切に使用するためにどのアーキテクチャを設計する必要があるか、
(2) アーキテクチャのパラメータを学習する方法という 2 つの重要な側面があります。

アーキテクチャ設計に関しては、既存の研究を体系的に統合し、最終的に包括的で統一された枠組みを形成しました。

2 番目の側面に関しては、
(1) 慎重に厳選されたデータセットに基づいてモデルが微調整される例から学習する、
(2) リアルタイムのインタラクションを活用し、環境フィードバックから学習する、一般的に使用される 3 つの戦略を要約します。 (3) 人間のフィードバック
から学び、人間の専門知識と介入を利用して改善します。

2.1 エージェントのアーキテクチャ設計

言語モデル (LLM) の最近の進歩により、LLM が幅広いタスクに適用できる可能性が実証されました。ただし、LLM のみに基づくと、アーキテクチャ上の制限により自律エージェントを効果的に実装することは困難です。このギャップを埋めるために、これまでの研究では、自律エージェントを構築する LLM の能力を刺激し、強化するための多数のモジュールが開発されました。

このセクションでは、以前の研究で提案されたアーキテクチャを要約するための統一フレームワークを提案します。具体的には、フレームワークの全体構造を図 2 に示します。これは、プロファイル モジュール、メモリ モジュール、計画モジュール、および実行モジュールで構成されます。

  • プロファイリング モジュールの目的は、エージェントの役割を特定することです。

  • 記憶および計画モジュールはエージェントを動的な環境に置き、エージェントが過去の行動を思い出して将来の行動を計画できるようにします。

  • アクション モジュールは、エージェントの決定を特定の出力に変換する役割を果たします。

これらのモジュールのうち、プロファイリング モジュールはメモリ モジュールとプランニング モジュールに影響を与え、これら 3 つのモジュールは一緒になって実行モジュールに影響を与えます。

2.1.1 プロファイリングモジュール

自律エージェントは通常、コード開発者、教師、ドメイン専門家などの特定の役割を引き受けることでタスクを実行します [113、35]。プロファイリング モジュールは、エージェントの役割プロファイルを定義することを目的としています。これは通常、LLM の動作に影響を与えるためにプロンプ​​トに書き込まれます。既存の作業では、エージェント構成ファイルを生成するために 3 つの一般的に使用される戦略があります。

  • 手作り方法

  • LLMベースの生成方法

  • データセットのアライメント方法

手動方式: この方式では、エージェントの設定ファイルを手動で指定します。たとえば、さまざまな性格を持つエージェントをデザインしたい場合、「あなたは外向的です」または「あなたは内向的です」でエージェントを説明できます。

手作りの方法は、エージェントのプロファイリング ファイルを指示するためにこれまでの多くの作品で使用されてきました。具体的には、生成エージェント [156] は、名前、目標、他のエージェントとの関係などの情報によってエージェントを記述します。MetaGPT [58]、ChatDev [113]、およびセルフコラボレーション [29] は、ソフトウェア開発におけるさまざまな役割とそれに対応する責任を事前に定義し、コラボレーションを促進するために各エージェントに異なるプロファイルを手動で割り当てます。最近の研究 [27] では、異なるペルソナを手動で割り当てると、毒性を含めて LLM 生成に大きな影響を与える可能性があることが示されました。特定のペルソナを指定すると、デフォルトのペルソナよりも有害であることが示されました。

一般に、手動による方法は非常に柔軟です。ただし、特に多数のエージェントを扱う場合には、多大な労力がかかる可能性があります。

LLM 生成に基づく方法: この方法では、LLM に基づいてエージェント設定ファイルが自動的に生成されます。

通常、手動プロンプトを提供し、特定の生成ルールの概要を示し、対象集団におけるエージェント プロファイルの構成と特性を明確にすることから始まります。さらに、最初のエージェント プロファイルを数ショットの例として指定することもできます。これらのプロファイルは、LLM に基づいて他のエージェント情報を生成するための基礎として機能します。たとえば、RecAgent [134] は、まず、年齢、性別、個人の特徴、映画の好みなどの詳細を手動で作成することにより、少数のエージェントのシード プロファイルを作成します。次に、ChatGPT を利用して、シード情報に基づいてさらにエージェント プロファイルを生成します。エージェントの数が多い場合、LLM 生成方法を使用すると時間を大幅に節約できますが、生成された構成ファイルを正確に制御できない可能性があります。

データセット調整方法: この方法では、実世界のデータセットに基づいてエージェント プロファイルが作成されます。実在の人間に関する基本情報は、エージェントを説明するために完全にまたは選択的に使用されます。

たとえば、[5] のエージェントは、現実世界の調査データセットの参加者の人口統計的背景に基づいて初期化されます。データセットの位置合わせ方法は、現実の群衆の属性を正確に捕捉し、仮想世界と現実世界の間のギャップを効果的に埋めることができます。

プロファイル生成戦略に加えて、もう 1 つの重要な問題は、エージェントの説明 (プロファイリング) に使用される情報を指定する方法です。情報の例には、人口の特徴 (年齢、性別、収入など) を記述する人口統計情報、エージェントの性格を示すサイコグラフィック情報、エージェント間の関係を記述する社会情報が含まれます。

エージェントを構成するための情報の選択は、特定のアプリケーション シナリオに大きく依存します。たとえば、調査がユーザーの社会的行動に焦点を当てている場合、社会的プロフィール情報が重要になります。ただし、プロファイル情報と下流タスクの間の関係を確立するのは必ずしも簡単ではありません。考えられる解決策は、最初に考えられるすべてのプロファイル情報を入力し、次に最適な方法を選択するための自動方法 (LLM などに基づく) を開発することです。

2.1.2 メモリモジュール

メモリ モジュールは、AI エージェントの構築において非常に重要な役割を果たします。環境から感知した情報を保存し、記録された記憶を使用して将来の行動を促進します。メモリ モジュールは、エージェントが経験を蓄積し、自らを進化させ、より一貫性、合理的、効率的な方法で行動するのに役立ちます。

このセクションでは、構造、形式、および動作に焦点を当てて、メモリ モジュールの包括的な概要を説明します。

記憶構造

LLM ベースの自律エージェントは通常、認知科学の原理とメカニズムを組み合わせて、人間の記憶のプロセスを研究します。人間の記憶は、感覚入力を記録する感覚記憶から、情報を短期間保持する短期記憶、そして時間の経過とともに情報を統合する長期記憶までの全体的なプロセスに従います。

AI エージェントのメモリ アーキテクチャを設計する際、研究者は人間の記憶のこれらの側面からインスピレーションを得ていると同時に、機能における重要な違いも認識しています。

AI エージェントの短期記憶は、Transformer アーキテクチャのコンテキスト ウィンドウ制約でサポートされる学習機能に似ています。長期記憶は外部ベクトル ストレージに似ており、エージェントは必要に応じて迅速にクエリを実行し、取得できます。

したがって、人間が強化によって知覚情報を短期記憶から長期記憶に徐々に転送すると、AI エージェントは、アルゴリズムによって実装されたメモリ システム間で、より最適化された書き込みおよび読み取りプロセスを設計できます。

人間の記憶の側面をシミュレートすることで、設計者は記憶プロセスを利用して推論と自律性を向上させるエージェントを作成できます。以下では、一般的に使用される 2 つのメモリ構造を紹介します。

• 統合メモリこの構造では、記憶は単一のフレームワークに編成され、短期記憶と長期記憶の区別はありません。このフレームワークには、メモリの読み取り、書き込み、リフレクションのための統合インターフェイスがあります。例えば:

  • Atlas [65] は、デュアル エンコーダ モデルから生成された一般的な密ベクトルに基づいてドキュメント メモリを保存します。

  • Augmented-LLM [121] は、メモリに統合された外部ストレージを採用しており、ヒントを通じてアクセスできます。

  • Voyager [133] はまた、統合メモリ アーキテクチャを活用して、さまざまな複雑さのスキルを中央リポジトリに集約します。コード生成中に、スキルの照合と取得の関連性に基づいてスキルにインデックスを付けることができます。

  • ChatLog [132] は統合されたメモリ フローを維持するため、モデルが重要な履歴情報を保持し、さまざまな環境に合わせてエージェント自体を適応的に調整できるようになります。

• ハイブリッド メモリハイブリッド記憶は、短期機能と長期機能を明確に区別します。短期記憶は最近の認識を一時的にバッファリングしますが、長期記憶は時間の経過とともに重要な情報を統合します。例えば:

  • [109] は、長期記憶と短期記憶を含むエージェントの経験と知識を保存するために 2 層の記憶構造を採用しています。長期記憶は被験者の世界全体の理解と一般化を保持するために使用され、短期記憶は被験者の個々の出来事の理解と注釈を保持するために使用されます。

  • AgentSims [89] もハイブリッド メモリ アーキテクチャを実装しています。長期記憶はベクトル データベースを利用して、各エージェントのエピソード記憶を効率的に保存および取得します。LLM は、短期記憶を実装し、抽象化、検証、修正、およびシミュレーションのタスクを実行するために使用されます。

  • GITM [161] では、短期記憶は現在の軌道を保存し、長期記憶は成功した以前の軌道から要約された参照計画を保存します。
    長期記憶は安定した知識を提供し、短期記憶は柔軟な計画を可能にします。

  • Reflexion [125] は、短期のスライディング ウィンドウを利用して最近のフィードバックを取得し、永続的な長期ストレージと組み合わせて、凝縮された洞察を保持します。この組み合わせにより、詳細なインスタント エクスペリエンスと高レベルの抽象化の利用が可能になります。

  • SCM [84] は、短期記憶と組み合わせて最も関連性の高い長期知識を選択的に活性化し、複雑な状況に応じた会話での推論を可能にします。

  • SWIFTSAGE [87] は、小型 LM を使用して短期記憶を管理して直観と連想的思考を生成する一方、LLM を使用して長期記憶を処理して意図的な意思決定を生成します。

メモリフォーマット

情報はさまざまな形式を使用してメモリに保存でき、それぞれに独自の利点があります。たとえば、自然言語は包括的な意味情報を保存できますが、埋め込みにより読書の暗記​​効率を向上させることができます。以下では、一般的に使用される 4 つのメモリ形式を紹介します。

• 自然言語タスクの推論/プログラミングに自然言語を使用すると、柔軟で意味的に豊富なストレージ/アクセスが可能になります。たとえば、Reflexion [125] は、体験フィードバックを自然言語でスライディング ウィンドウに保存します。Voyager [133] は、自然言語記述を使用して Minecraft ゲームのスキルを表現し、メモリに直接保存されます。

• 埋め込み型埋め込みを使用して情報を保存すると、メモリの検索と読み取りの効率が向上します。たとえば、MemoryBank [158] は各メモリ セグメントを埋め込みベクトルとしてエンコードし、検索用のインデックス付きコーパスを構築します。GITM [161] は、照合と再利用を容易にするために、参照計画を埋め込みとして表します。ChatDev [113] は、対話履歴を検索用のベクトルとしてエンコードします。

• データベース外部データベースは構造化されたストレージを提供し、ストレージは効率的かつ包括的な操作で操作できます。たとえば、ChatDB [61] はシンボルの長期保存場所としてデータベースを利用しています。LLM コントローラーによって生成された SQL ステートメントは、データベース上で正確に動作できます。

• 構造化リスト別の種類のメモリ形式は構造化リストであり、これに基づいて情報をよりコンパクトかつ効率的に伝達できます。たとえば、GITM [161] は、サブゴールのアクション リストを階層ツリー構造に保存します。階層は、目標と対応する計画の間の関係を明示的に捉えます。RET-LLM [102] は、最初に自然言語文を 3 連語句に変換し、その後メモリに保存します。

メモリ操作

外部環境と対話するには、メモリ読み取り、メモリ書き込み、自己反映を含む 3 つの主要なメモリ操作があります。

• メモリ読み取り記憶読み取りの鍵は、記憶から情報を取り出すことです。一般に、情報抽出には、最新性、関連性、重要性という 3 つの一般的に使用される基準があります [109]。最近の、関連性のある重要な記憶が呼び出される可能性が高くなります。正式には、情報を抽出するために次の方程式を導き出します。

ここで、q はクエリです。たとえば、エージェントが処理するタスクやエージェントが属するコンテキストなどです。M はすべての記憶の集合です。s_rec( )、s_rel( )、および s_imp( ) は、メモリ m の最新性、関連性、および重要性を測定するスコアリング関数です。s_imp はメモリ自体の特性を反映するだけなので、クエリとは関係がないことに注意してください。α、β、γはバランスパラメータです。それらに異なる値を割り当てることで、さまざまなメモリ読み取り戦略を取得できます。たとえば、α = γ = 0 と設定すると、多くの研究 [102、161、133、49] ではメモリ読み取りの関連性スコアのみが考慮されます。α = β = γ = 1.0 を指定することにより、[109] は上記の 3 つのメトリクスに均等に重みを付けてメモリから情報を抽出します。

• メモリ書き込みエージェントは重要な情報をメモリに保存することで知識と経験を得ることができます。作成プロセス中には、慎重に対処する必要がある潜在的な問題が 2 つあります。一方で、既存のメモリと同様の情報を保存する方法 (メモリの複製) に取り組むことが重要です。一方で、メモリが記憶域の限界に達したとき(メモリ オーバーフローなど)、情報を削除する方法を考慮することが重要です。これらの問題は、次の戦略で解決できます。

(1) メモリの重複。同様の情報を統合するために、新しい記録と以前の記録を統合するさまざまな方法が開発されています。
たとえば、[108] では、同じサブ目標に関連する成功したアクション シーケンスがリストに保存されます。リストがサイズ N (=5) に達すると、リスト内のすべてのシーケンスが、LLM を使用して統合計画ソリューションに凝縮されます。メモリ内の元のシーケンスは、新しく生成されたシーケンスに置き換えられます。Augmented-LLM [121] は、重複した情報をカウントして蓄積することによって集約し、冗長なストレージを回避します。Reflexion [125] は、関連するフィードバックを高レベルの洞察に統合し、生の経験を置き換えます。

(2) メモリオーバーフロー。メモリがいっぱいになったときに情報をメモリに書き込むために、既存の情報を削除してメモリ プロセスを続行するさまざまな方法が考案されています。たとえば、ChatDB [61] では、ユーザーのコマンドに応じてメモリを明示的に削除できます。RET-LLM [102] は、固定サイズの循環バッファをメモリとして使用し、先入れ先出し (FIFO) スキームに基づいて最も古いエントリを上書きします。

• 記憶の反映このアクションの目的は、エージェントに、より高度な情報を凝縮して推論したり、エージェント自身の動作を自律的に検証して修正したりできるようにすることです。これは、エージェントが自分自身と他人の属性、好み、目標、つながりを理解し、それによって彼らの行動を導くのに役立ちます。これまでの研究では、さまざまな形の記憶反映が調査されてきました。

(1) 自己要約。リフレクションを使用すると、エージェントの記憶をより高いレベルの概念に凝縮できます。[109] では、エージェントはメモリに保存されている過去の経験を、より広範で抽象的な洞察に要約することができます。具体的には、エージェントはまず、最近の記憶に基づいて 3 つの重要な質問を生成します。次に、これらの質問を使用して、関連情報を記憶するためにクエリが実行されました。取得した情報に基づいて、エージェントはエージェントの高度な思考を反映する 5 つの洞察を生成します。さらに、リフレクションは階層的に発生する可能性があり、既存の洞察に基づいて洞察を生成できることを意味します。

(2) 自己検証。リフレクションの別の形式には、エージェントのアクションの有効性を評価することが含まれます。[133] では、エージェントは Minecraft でタスクを完了することを目的としています。各実行ラウンド中に、エージェントは GPT-4 を批評家として使用して、現在の操作が目的のタスクを達成するのに十分であるかどうかを評価します。タスクが失敗した場合、批評家はタスクを完了する方法を提案することでフィードバックを提供します。Replug [124] は、検索モデルをターゲット言語モデルにさらに適合させるためにトレーニング スキームを採用しています。具体的には、言語モデルをスコア関数として利用して、言語モデルの複雑さを軽減するための各ドキュメントの貢献を評価します。検索モデルのパラメーターは、検索確率と言語モデル スコアの間の KL バイアスを最小限に抑えることによって更新されます。このアプローチは、検索結果の関連性を効果的に評価し、言語モデルからのフィードバックに基づいて調整を行います。

(3) 自己修正。このタイプの反省では、エージェントは環境からのフィードバックを組み込むことでその動作を修正できます。MemPrompt [96] では、モデルはユーザーのフィードバックに基づいてタスクの理解を調整し、より正確な回答を生成できます。[137] では、エージェントは Minecraft をプレイするように設計されており、事前に定義された計画に従ってアクションを実行します。計画が失敗すると、エージェントは計画を再考し、計画を変更して探索プロセスを続行します。

(4) 共感。記憶反射は、エージェントの共感を高めるためにも使用できます。[49] では、エージェントはチャットボットですが、人間の認知プロセスを考慮して発話を生成します。各トークラウンドの後、エージェントは自分の言葉が聞き手に与える影響を評価し、聞き手の状態についての認識を更新します。

2.1.3 計画モジュール

人間は複雑なタスクに直面したとき、まずそれを単純なサブタスクに分割し、次に各サブタスクを 1 つずつ解決します。計画モジュールを使用すると、LLM ベースのエージェントが複雑なタスクを解決するために考えて計画できるようになり、エージェントがより包括的で強力かつ信頼できるものになります。

2 種類の計画モジュールについて以下に説明します。

フィードバック計画なし

このアプローチでは、エージェントは計画プロセス中にフィードバックを受け取りません。これらの計画は総合的な方法で作成されます。以下に、代表的な計画戦略を多数示します。

• サブ目標の分解研究者の中には、LLM を段階的に考えて複雑なタスクを解決しようとしている人もいます。

  • 思考連鎖 [138] は、大規模なモデルが複雑なタスクを解決できるようにするための標準的な手法となっています。これは、プロンプト内の少数の言語例を使用して複雑な推論問題を徐々に解決する、シンプルかつ効果的なプロンプト方法を提案しています。

  • Zero-shot-CoT [72] は、モデルに「段階的に考える」ことを促すことで、LLM が複雑な問題の推論プロセスを自律的に生成することを可能にし、実験を通じて LLM が優れたゼロショット推論者であることを証明します。

  • [63] では、LLM は対話型シミュレーション環境で目標主導の意思決定を行うためのゼロショット プランナーとして機能します。

  • [53] さらに、環境オブジェクトとオブジェクト関係を LLM アクション プラン生成の追加入力として使用し、計画を生成するための周囲環境の認識をシステムに提供します。

  • ReWOO [147] は、計画を外部観察から切り離すパラダイムを導入し、LLM がプランナーとして機能し、外部フィードバックなしで一連の独立した計画を直接生成できるようにしました。

要約すると、複雑なタスクを実行可能なサブタスクに分解することで、大規模な言語モデルの計画と意思決定の機能が大幅に向上します。

• マルチパス思考CoT に基づいて、一部の研究者は、人間の思考と推論のプロセスは、最終結果に至るまでの複数のパスを持つツリー構造であると信じています。

  • 自己矛盾のない CoT (CoT-SC) [135] は、複雑な質問にはそれぞれ、最終的な答えを導き出すための複数の考え方があると仮定しています。具体的には、CoT を使用して推論のための複数のパスと回答が生成され、その中で最も多く出現した回答が最終的な回答出力として選択されます。

  • Tree of Thought (ToT) [150] では、人間は計画を立てる目的で複雑な問題について意思決定を行う際に、ツリー状の方法で考える傾向があり、各ツリー ノードが心の状態であると仮定しています。LLM を使用して評価または賛成票を生成し、BFS または DFS を使用して検索できます。これらの方法により、複雑な推論タスクにおける LLM のパフォーマンスが向上します。

  • [153] では、制約付き言語プログラミングの問題について議論しています。追加のスクリプトを生成し、それらをフィルタリングして、スクリプト生成の品質を向上させます。生成された少数のスクリプトの中から、スクリプトの選択は、(1) スクリプトとターゲット間のコサイン類似性、および (2) スクリプトにターゲット制約キーワードが含まれているかどうかによって決定されます。

  • DEPS [137] は、オプションのサブタスクの中から最適なパスを選択するためのセレクターとして視覚言語モデルを使用します。

  • SayCan [2] は、言語モデルからの確率 (アクションが高レベルの命令に役立つ確率) と値関数からの確率 (前記アクションが正常に実行される確率) を組み合わせて、実行するアクションを選択します。次に、ロボットの応答に追加し、モデルに再度クエリを実行して、出力ステップが終了するまでプロセスを繰り返します。

結論として、マルチパス思考により、エージェントはさらに複雑な計画タスクを解決できるようになりますが、追加の計算負荷も生じます。

外部プランナーLLM は、優れたゼロショット計画機能を備えていても、多くの場合、特にドメイン固有の長期計画の問題に直面した場合、従来のプランナーよりも信頼性が低くなります。

  • LLM+P [90] は、自然言語記述を正式な計画ドメイン定義言語 (PDDL) に変換します。次に、結果は外部プランナーを使用して計算され、最終的に LLM によって自然言語に変換されます。同じ、

  • LLM-DP [24] は LLM を利用して、観測値、現在の世界状態、およびターゲット オブジェクトを PDDL 形式に変換します。次に、この情報は外部のシンボリック プランナーに渡され、現在の状態から目標状態までのアクションの最適なシーケンスが効果的に決定されます。

  • MRKL [71] は、LLM が入力テキストを処理し、それを各エキスパートにルーティングし、LLM の出力を介して渡すモジュール式の神経記号 AI アーキテクチャです。

  • CO-LLM [156] は、LLM は高レベルの計画を生成するのは得意だが、低レベルの制御は得意ではないと主張しています。ヒューリスティックに設計された低レベルのプランナーを使用して、高レベルの計画に基づいて基本操作を堅牢に実行します。サブタスク ドメインの専門プランナーにより、LLM は特定のドメインの複雑なタスクの計画をナビゲートすることができます。

LLM ベースのエージェントの一般化された知識では、すべてのドメインでタスクを最適に実行することは困難ですが、それを外部プランナーの専門知識と組み合わせることで、パフォーマンスを効果的に向上させることができます。

フィードバックをもとに計画を立てる

人間は課題に取り組むとき、成功や失敗の経験を経て自分自身を振り返り、計画を立てる能力を高めます。これらの経験は、外部からのフィードバックに基づいて獲得され、蓄積されることがよくあります。この人間の能力をシミュレートするために、多くの研究者は、環境、人間、モデルからフィードバックを受け取ることができる計画モジュールを設計し、エージェントの計画能力を大幅に向上させてきました。

• 環境へのフィードバック多くの研究では、エージェントは環境フィードバックに基づいて計画を立てます。例えば:

  • ReAct [151] は、エージェントのアクション空間をアクション空間と言語空間の集合に拡張します。明示的な推論とアクションは順番に実行され、アクションからのフィードバックに正解がない場合は、正解が得られるまで推論が再度実行されます。

  • Voyager [133] は、自己検証に合格してスキル リポジトリに保存されるまで、3 種類のフィードバックを操作することでエージェント生成スクリプトを自己調整します。

  • Ghost [161]、DEPS [137] は、環境内のエージェントの現在の状態に関する情報や、実行された各アクションの成功または失敗に関する情報を含むフィードバックを環境から受け取ることができます。このフィードバックを組み込むことで、エージェントは環境についての理解を更新し、戦略を改善し、行動を調整することができます。

  • ゼロショット プランナー [63] に基づいて、再プロンプト [117] はプリコンディショニング エラー情報を使用して、エージェントが現在の計画を完了できるかどうかを検出します。また、前提条件情報を使用して、閉ループ制御を完了するよう LLM に再プロンプトを出します。

  • Inner Monologue [64] は、サブタスクの正常な実行、受動的なシーン記述、能動的なシーン記述という 3 種類の環境フィードバックを命令に追加し、それによって LLM ベースのエージェントの閉ループ計画を可能にします。

  • 内省的なヒント [17] により、LLM は環境フィードバックの歴史を通じて内省することができます。

  • LLM Planner [127] は、タスクの完了中にオブジェクトの不一致や達成不可能な計画が発生した場合に、LLM で生成された計画を動的に更新する、ベースベースの再計画アルゴリズムを導入しています。

  • Progprompt [126] では、環境状態のフィードバックを提供するために生成されたスクリプトにアサーションが組み込まれており、操作の前提条件が満たされていない場合にエラーを回復できるようになります。

結論として、環境フィードバックは計画の成功または失敗を直接示す指標であるため、クローズドループ計画の効率が向上します。

• 人間によるフィードバックエージェントは、実際の人間からのフィードバックを利用して計画を立てることができます。このような信号は、エージェントが実際の設定とよりよく調和するのに役立ち、幻覚の問題も軽減します。

  • Voyager [133] で言及されているように、人間は批評家として行動し、マルチモデルのフィードバックを通じて Voyager に前のラウンドのコードを変更するよう要求することができます。

  • OpenAGI [51] は、LLM ベースのエージェントの機能を向上させるために手動またはベンチマーク評価を活用するタスク フィードバックによる強化学習 (RLTF) メカニズムを提案しています。

• モデルのフィードバック言語モデルは、生成された計画を批判し、改善するための批評家として機能できます。

  • Self-Refine [97] は、反復的なフィードバックと改善を通じて LLM の出力を向上させるための Self-Refine メカニズムを導入しました。具体的には、LLM はジェネレーター、フィードバック プロバイダー、リファインナーとして使用されます。まず、ジェネレーターを使用して初期出力を生成し、次にフィードバック プロバイダーを使用して、具体的で実用的なフィードバックを出力に提供します。最後に、リファイナーを使用して、フィードバックを使用して出力を改善します。LLM の推論能力は、生成者と批評家の間の反復フィードバック ループを通じて向上します。

  • Reflexion [125] は、言語によるフィードバックでエージェントを強化するためのフレームワークであり、記憶メカニズムを導入します。まず参加者がアクションを生成し、次に評価者が評価を生成し、最後に内省モデルを通じて過去の経験の要約を生成します。概要はメモリに保存され、過去の経験に基づいてエージェントの生成がさらに向上します。ワールド モデルは通常、エージェントの環境の内部表現を指し、環境の内部シミュレーションと抽象化に使用されます。これは、エージェントが環境に対するさまざまなアクションの影響を推論、計画、予測するのに役立ちます。

  • RAP [57] では、ワールド モデルとエージェントの両方として LLM を使用します。推論中、エージェントは推論ツリーを構築し、ワールド モデルはフィードバックとして報酬を提供します。エージェントは推論ツリーに対して MCTS (Monte Carlo Tree Search) を実行して、最適な計画を取得します。

  • REX [103] は、報酬フィードバックが環境または LLM によって提供される加速 MCTS アプローチを導入しています。

  • 内省的なヒント [17] は、他のエキスパート モデルのデモンストレーションから学ぶことができます。

  • MAD (マルチエージェントディベート) [83] フレームワークでは、複数の被験者が「目には目を」方式で自分の主張を表現し、裁判官が最終的な解決策に到達するためにディベートプロセスを管理します。MAD フレームワークは、LLM での発散的思考を促進し、深い思考を必要とするタスクを容易にします。

要約すると、エージェントが複雑なタスクを解決するには、計画モジュールが非常に重要です。外部からのフィードバックは常に賢明な計画に役立ちますが、常に存在するとは限りません。LLM ベースのエージェントを構築するには、フィードバック計画と非フィードバック計画の両方が重要です。

2.1.4 アクションモジュール

アクション モジュールは、エージェントの決定を具体的な結果に変換することを目的としています。これは環境と直接対話し、タスクを完了するためのエージェントの有効性を決定します。

このセクションでは、アクションの目標、戦略、スペース、影響力に焦点を当てて、アクション モジュールの概要を説明します。

行動目標

行動目標とは、行動の実行によって達成されることが期待される目標を指し、通常は現実の人物またはエージェント自身によって指定されます。3 つの主要な行動目標には、ミッションの完了、対話の相互作用、環境の探索と相互作用が含まれます。

• ミッションは完了しましたアクション モジュールの基本的な目標は、論理的な方法で特定のタスクを達成することです。シナリオごとにタスクの種類が異なるため、必要なアクション モジュールの設計が必要です。例えば:

  • Voyager [133] は、アクション モジュールとして LLM を利用し、エージェントがリソースを探索して収集し、Minecraft で複雑なタスクを完了するようにガイドします。

  • GITM [161] はタスク全体を実行可能なアクションに分解し、エージェントが毎日のアクティビティを段階的に完了できるようにします。

  • 生成エージェント [109] も同様に、高レベルのタスク計画を階層的に分解することによって、実行可能なアクション シーケンスを実行します。

• 対話による対話人間のユーザーは多くの場合、エージェントのステータスを取得したり、エージェントと共同作業を完了したりする必要があるため、LLM ベースの自律エージェントが人間と自然言語で会話できる機能は非常に重要です。これまでの研究により、さまざまなドメインのエージェントの対話対話能力が向上しました。例えば:

  • ChatDev [113] は、ソフトウェア開発会社の従業員間で関連する会話を行っています。

  • DERA [104] は、対話の対話を反復的に強化します。

  • [31, 139] は、異なる被験者間の対話型の対話を活用し、あるトピックについて同様の意見を共有することを奨励します。

• 探索および対話するための環境エージェントは環境と対話することで新しい知識を獲得し、最近の経験を要約することで自分自身を強化することができます。このようにして、エージェントは環境にますます適応し、常識と一致する新しい行動を生成できます。例えば:

  • Voyager [133] は、エージェントがオープンな環境で探索できるようにすることで、継続的な学習を可能にします。

  • SayCan [2] の記憶強化学習 (MERL) フレームワークは継続的にテキスト知識を蓄積し、外部フィードバックに基づいてエージェントの行動計画を調整します。

  • GITM [161] を使用すると、エージェントはテキストの知識を継続的に収集できるため、環境フィードバックに基づいてエージェントの動作を調整できます。

行動戦略

アクション戦略とは、エージェントがアクションを生成する方法を指します。

既存の研究では、これらの戦略は、記憶の想起、複数回の対話、フィードバック調整、外部ツールの組み込みなどです。

• メモリの呼び出し記憶想起技術は、エージェントが記憶モジュールに保存された経験に基づいて情報に基づいた意思決定を行うのに役立ちます [109、78、161]。

  • 生成エージェント [109] は、会話と経験の記憶ストリームを維持します。操作が実行されると、関連するメモリ セグメントが LLM への条件付き入力として取得され、操作の一貫性が確保されます。

  • GITM [161] はメモリを使用して、以前に発見された場所への移動などのアクションをガイドします。

  • CAMEL [78] は歴史的経験の記憶ストリームを構築し、LLM がこれらの記憶に基づいて情報に基づいた行動を生成できるようにします。

• 複数ラウンドの対話このアプローチは、複数ラウンドの対話のコンテキストを活用して、エージェントが適切な応答をアクションとして識別できるようにしようとします [113、104、31]。

  • ChatDev [113] は、エージェントが他の人との会話履歴に基づいてアクションを実行することを奨励します。

  • DERA [104] は、コミュニケーションプロセス中に、研究者エージェントが意思決定エージェントの行動を導くための有用なフィードバックを提供できる新しい対話エージェントを提案しました。

  • [31] は、マルチエージェント ディベート (MAD) システムを構築しました。このシステムでは、LLM ベースの各エージェントが反復的な対話に参加し、課題や洞察を交換し、合意に達するという最終的な目標を達成しています。

  • ChatCot [20] は、マルチラウンド ダイアログ フレームワークを使用して思考チェーンの推論プロセスをモデル化し、ダイアログ インタラクションを通じて推論とツールの使用をシームレスに統合します。

• フィードバックの調整人間のフィードバックや外部環境への参加の有効性は、エージェントが行動戦略を適応させ強化するのに役立つことが示されています [133、99、2]。例えば:

  • Voyager [133] を使用すると、エージェントはアクションの失敗が発生した後にポリシーを改善したり、フィードバック メカニズムを使用して成功したポリシーを検証したりできます。

  • Interactive Constructive Learning Agent (ICLA) [99] は、初期アクションに関するユーザーのフィードバックを活用して計画を反復的に強化し、より正確なポリシーに導きます。

  • SayCan [2] は、エージェントが環境フィードバックのみに基づいてアクションを継続的に調整する強化学習フレームワークを採用し、試行錯誤ベースの自動強化を可能にします。

• 外部ツールを統合しますLLM ベースの自律エージェントは、外部ツールを導入し、知識ソースを拡張することで強化できます。

一方では、エージェントはトレーニングまたは推論フェーズ中にさまざまな API、データベース、Web アプリケーション、その他の外部リソースにアクセスして使用することができます。例えば:

  • Toolformer [119] は、呼び出す適切な API、それらの呼び出しのタイミング、返された結果を将来のトークン予測に統合する最適な方法を決定するように訓練されています。

  • ChemCrow [8] は、有機合成、創薬、材料設計などのタスクを実行するための 17 の専門家が設計したツールを含む化学ベースの LLM 試薬を設計しました。

  • ViperGPT [128] は、ビジョンおよび言語モデルを、任意のクエリの結果を返すことができるサブルーチンに組み立てるコード生成フレームワークを提案しています。

  • HuggingGPT [123] は、LLM を使用して機械学習コミュニティのさまざまな AI モデル (例: Hugging Face) を接続し、AI タスクを解決します。具体的には、HuggingGPT は、LLM をトレーニングしてコード スニペットを生成し、これらのスニペットを使用して外部コミュニティ センターから目的の AI モデルを呼び出すメタ学習方法を提案しています。

一方、エージェントが直接取得する知識の範囲と質は、外部の知識源の助けを借りて拡張できます。以前の研究では、外部知識ソースにはデータベース、ナレッジ グラフ、Web ページなどが含まれていました。例えば:

  • Gorilla [111] は、Torch ハブ、TensorFlow ハブ、HuggingFace という 3 つの追加の機械学習ハブ データセットでトレーニングされているため、適切な API 呼び出しを効率的に提供できます。

  • WebGPT [105] は、ChatGPT を使用するときに Web サイトから取得した関連結果をヒントに組み込み、より正確でタイムリーな会話を可能にする拡張機能を提案しています。

  • ChatDB [61] は、LLM コントローラーによって生成された SQL ステートメントを利用して外部データベースを正確に操作する人工知能データベース アシスタントです。

  • GITM [161] は、LLM、知識抽出、およびトピック モデリング モジュールを統合する新しいテキスト マイニング パイプラインを使用して、LLM を使用してテキスト マイニング タスクの解釈可能な結果を​​生成します。

アクションスペース

LLM ベースのエージェントのアクション スペースとは、エージェントが実行できる一連のアクションを指します。これは、次の 2 つの主な情報源に由来しています。

  • アクション機能を拡張する外部ツール

  • 言語生成や記憶に基づく意思決定など、エージェント自身の知識とスキル。

具体的には、外部ツールには、検索エンジン、知識ベース、計算ツール、その他の言語モデル、ビジョン モデルが含まれます。これらのツールとインターフェイスすることにより、エージェントは情報検索、データ クエリ、数学的計算、複雑な言語生成、画像分析などのさまざまな現実的な操作を実行できます。言語モデルに基づいてエージェントが自己取得した知識により、エージェントは計画を立て、言語を生成し、意思決定を行うことができるようになり、それによってエージェントの行動の可能性がさらに広がります。

• 外部ツールさまざまな外部ツールまたは知識ソースは、API、知識ベース、ビジュアル モデル、言語モデルなどを含む、より豊富な操作機能をエージェントに提供します。

(1) API。外部 API を利用して操作領域を補完・拡張するのは、近年よく見られるパターンです。例えば:

  • HuggingGPT [123] は検索エンジンを使用し、クエリを関連コードの検索リクエストに変換します。

  • [105, 118] は、ユーザーのリクエストに応じて外部 Web ページから関連コンテンツを抽出するクエリを自動的に生成することを提案しました。

  • TPTU [118] は、Python インタプリタおよび LaTeX コンパイラと連携して、平方根、階乗、行列演算などの複雑な計算を実行します。

別のタイプの API は、LLM が自然言語またはコード入力に基づいて直接呼び出すことができる API です。例えば:

  • ToolFormer [119] は、自然言語命令に基づいて、特定のツールを異なる機能または形式を持つ別のツールに自動的に変換できる LLM ベースのツール変換システムです。

  • API-Bank [80] は、さまざまなプログラミング言語やドメインで適切な API 呼び出しを自動的に検索して生成できる、LLM ベースの API 推奨エージェントです。API-Bank は、ユーザーが生成された API 呼び出しを変更および実行するための対話型インターフェイスも提供します。

  • 同様に、ToolBench [115] は、自然言語の要件に従ってさまざまなユーティリティ ツールを自動的に設計および実装できる LLM ベースのツール生成システムです。ToolBench によって生成されるツールには、計算機、単位コンバータ、カレンダー、地図、グラフなどが含まれます。これらすべてのエージェントは外部 API を外部ツールとして使用し、生成または変換されたツールを簡単に変更および実行するための対話型インターフェイスをユーザーに提供します。

(2) 知識ベース。外部ナレッジ ベースに接続すると、エージェントがドメイン固有の情報を取得して、より現実的なアクションを生成できるようになります。例えば:

  • ChatDB [61] は、SQL ステートメントを使用してデータベースにクエリを実行し、論理的な方法でエージェントの操作を容易にします。

  • ChemCrow [8] は、専門家が設計した 17 のツールを利用して、有機合成、創薬、材料設計の分野でのタスクを達成するように設計された LLM ベースの化学試薬を提案しています。

  • MRKL システム [71]、OpenAGI [51] は、知識ベースやプランナーなどのさまざまなエキスパート システムを組み合わせて、体系的な方法でドメイン固有の情報にアクセスするように呼び出します。

(3) 言語モデル。言語モデルは、アクション空間を豊かにするツールとしても使用できます。例えば:

  • MemoryBank [158] は 2 つの言語モデルを採用しており、1 つは入力テキストをエンコードするように設計されており、もう 1 つは入力されたクエリ文を照合してテキスト検索支援を提供する役割を果たします。

  • ViperGPT [128] は、まず言語モデルベースの Codex を使用してテキスト記述から Python コードを生成し、次にそのコードを実行して特定のタスクを完了します。

  • TPTU [118] は、さまざまな LLM を組み合わせて、コード生成、歌詞生成などの幅広い言語生成タスクを実行します。

(4) ビジュアルモデル。ビジュアル モデルをエージェントと統合すると、アクション スペースをマルチモーダル ドメインに拡張できます。

  • ViperGPT [128] は、GLIP などのモデルを利用して、ビジュアルコンテンツ関連の操作のための画像特徴を抽出します。

  • HuggingGPT [123] は、画像処理と生成に視覚モデルを使用することを提案しています。

• エージェントの自己認識また、エージェントが自己獲得した知識は、LLM の生成能力を利用した計画や言語生成、記憶に基づく意思決定など、さまざまな動作を提供します。エージェントは、記憶、経験、言語能力などの獲得した知識をもとに、ツールレスでさまざまなアクションを実現します。例えば:

  • 生成エージェント [109] は主に、過去のすべての会話の合成記憶ログで構成されます。アクションを実行すると、関連するメモリ フラグメントを条件入力として取得し、LLM が自己回帰的に論理的で一貫した言語プランを生成するように導きます。

  • GITM [161] は、発見された村や収集されたリソースなどの経験のメモリバンクを構築します。アクションが実行されると、村への以前の道順を思い出してその場所に再び移動するなど、関連するエントリについてメモリ バンクにクエリが実行されます。

  • SayCan [2] は、人間によるデモンストレーションや介入を一切行わずに、エージェントが環境フィードバックに完全に基づいてアクションを繰り返し調整し、自動的に試行錯誤して改善する強化学習フレームワークを開発しました。

  • Voyager [133] は、LLM の広範な言語生成機能を活用して、Python コード スニペットや当面のニーズに合わせた会話応答などの自由形式のテキスト ソリューションを合成します。同じ、

  • LATM [10] を使用すると、LLM が Python コードを活用して独自の再利用可能なツールを作成できるようになり、柔軟な問題解決が促進されます。

  • CAMEL [78] は、すべての歴史的経験をメモリ ストリームに記録します。その後、LLM は関連する記憶から情報を抽出し、予想される将来の行動方針を概説する高レベルのテキスト計画を自己回帰的に生成します。

  • ChatDev [113] は、コンテキストに基づいて適切な通信応答とアクションを決定するために、LLMAgent に対話履歴メモリを装備します。

要約すると、エージェントの内部知識により、記憶の想起、フィードバックの調整、無制限の言語生成などの方法を通じて、ツールを使わずにさまざまなアクションが可能になります。

アクションの影響

アクション効果とは、環境の変化、エージェントの内部状態の変化、新しいアクションのトリガー、人間の知覚への影響など、アクションの結果を指します。

• 環境の変化アクションは、エージェントの位置の移動、アイテムの収集、建物の建設など、環境の状態を直接変更することができます。たとえば、GITM [161] と Voyager [133] は、タスクを完了するための一連のアクションを実行することによって環境の状態を変更します。

• 内部状態を変更しますエージェントが実行するアクションによって、記憶の更新、新しい計画の作成、新しい知識の取得など、エージェント自体が変化することもあります。たとえば、生成エージェント [109] では、システム内でアクションが実行された後にメモリ ストリームが更新されます。SayCan [2] を使用すると、エージェントは環境の理解を更新し、その後のアクションに適応するためのアクションを実行できます。

• 新しいアクションをトリガーしますほとんどの LLM ベースの自律エージェントでは、アクションは通常、連続的に実行されます。つまり、前のアクションが次の新しいアクションをトリガーできます。たとえば、ボイジャー [133] は、Minecraft シーンで環境リソースを収集した後、建物を建設しようとしました。生成エージェント [109] は、まず計画をサブ目標に分解し、次に一連の関連アクションを実行して各サブ目標を完了します。

• 人間の知覚と経験に影響を与えます言語、画像、その他のアクション形式は、ユーザーの認識と体験に直接影響します。たとえば、CAMEL [78] は、一貫性があり、有益で、会話の対象にとって魅力的な発話を生成します。ViperGPT [128] は現実的で多様なビジュアルを生成し、画像生成タスクに関連します。HuggingGPT [123] は画像などの視覚出力を生成し、人間の認識を視覚経験の領域に拡張できます。さらに、HuggingGPT はコード、音楽、ビデオなどのマルチモーダル出力を生成して、さまざまなメディア形式との人間の対話を豊かにすることもできます。

2.2 学習戦略

学習は、人間が知識とスキルを獲得し、能力を高めるのに役立つ重要なメカニズムであり、その意味は LLM ベースのエージェントの領域に深くまで及びます。これらのエージェントは、学習中に、指示に従い、複雑なタスクを適切に処理し、前例のない多様な環境にシームレスに適応する能力の向上を実証できます。この変革的なプロセスにより、これらのエージェントは当初のプログラムを超えて、より洗練された柔軟性でタスクを実行できるようになります。

この章では、LLM ベースのエージェントが採用するさまざまな学習戦略を詳しく掘り下げ、その広範な影響を探ります。

ロールモデル

モデル学習は、人間と AI の学習の基本的なプロセスです。LLM ベースのエージェントの領域では、この原則は微調整に現れ、エージェントは実世界のデータにさらされることでスキルを磨きます。

• 人間が注釈を付けたデータから学習する人間が生成したフィードバック データの統合は、人間の価値観との整合性を追求する LLM の微調整の基礎となります。この実践は、特定のタスクにおいて人間を補完したり代替したりするように設計されたインテリジェント エージェントを形成する際に特に重要です。

  • Liu らによって提案された CoH 法 [91] には、LLM が応答を生成する多段階プロセスが含まれており、その応答は人間のレビュー担当者によって評価され、好ましい結果と不利な結果を区別します。この応答と評価の融合はプロセスを微調整するのに役立ち、LLM がエラーを包括的に理解し、人間の好みとの一貫性を保ちながらエラーを修正できるようになります。このアプローチは簡単ですが、アノテーションのコストと時間がかなりかかるため、さまざまなシナリオに迅速に適応することが困難になります。

  • MIND2WEB [26] は、さまざまなドメインから人間が注釈を付けた現実世界の Web サイトのタスク データを使用して微調整されており、その結果、実際の Web サイトで効果的に動作する汎用エージェントが得られます。

•  LLM ラベル付きデータからの学習事前トレーニング中に、LLM は広範な事前トレーニング データから豊富な世界知識を取得します。ChatGPTやGPT-4などのモデルは、人間によって微調整・調整されると人間に近い判断能力を発揮します。したがって、ラベル付けタスクに LLM を使用すると、手動でのラベル付けと比較してコストを大幅に削減でき、大規模なデータ収集の可能性が得られます。

  • Liu et al. [92] は、社会的相互作用に基づいた LLM 微調整のための安定した位置合わせ方法を提案しました。彼らは複数のエージェントを含むサンドボックス環境を設計し、各エージェントが詳しい質問に答えます。これらの応答は、近くのエージェントと ChatGPT によって評価され、スコア付けされます。その後、応答するエージェントはこれらの評価に基づいて回答を調整し、ChatGPT によって再スコアリングされます。この反復プロセスにより、対話型データの大規模なコーパスが生成され、その後、LLM が対照教師あり学習を使用して微調整されます。

  • Refiner [112] では、ジェネレーターは中間ステップを生成するように求められ、構造化されたフィードバックを生成するために批評家モデルが導入されます。次に、ジェネレータ モデルがフィードバック記録を使用して微調整され、推論能力が向上します。

  • ToolFormer [119] では、事前トレーニングされたコーパスは、LLM を使用して潜在的な API 呼び出しでマークされます。その後、LLM はこの注釈付きデータを微調整して、API がいつどのように使用されるかを理解し、API の結果をテキスト生成に統合します。同じ、

  • ToolBench [115] も完全に ChatGPT を使用して生成されたデータセットであり、ツールの使用における LLM の習熟度を微調整して向上させることを目的としています。ToolBench には、広範な API の説明に加え、特定の API を使用して実行するタスクの概要を説明する手順、およびそれらの手順を実装するための対応する操作シーケンスが含まれています。ToolBench を使用した微調整プロセスにより、ChatGPT と同等のパフォーマンスを発揮する ToolLLaMA という名前のモデルが生成されます。特に、ToolLLaMA は、これまで見たことのない API に直面した場合でも、強力な汎用化能力を示します。

環境フィードバックから学ぶ

多くの場合、インテリジェント エージェントは周囲の環境を積極的に探索し、対話する必要があります。したがって、環境に適応し、環境からのフィードバックによって自分自身を高める能力が必要です。強化学習では、エージェントは継続的に環境を探索し、環境フィードバックに基づいて適応することで学習します [68、82、98、152]。この原則は、LLM ベースのインテリジェント エージェントにも当てはまります。

  • Voyager [133] は、エージェントがアクションを実行し、環境フィードバックを収集し、新しく取得したスキルが自己検証され、検証されてスキル バンクに追加されるまで反復する、反復ヒント アプローチに従います。

  • 同様に、LMA3 [22] は対話型環境で自律的に目標を設定しアクションを実行し、LLM はそのパフォーマンスを報酬関数としてスコア付けします。このプロセスを繰り返すことで、LMA3 は独自に幅広いスキルを学習します。

  • GITM [161] と Inner Monologue [64] は、大規模な言語モデルに基づいた計画の閉ループ プロセスに環境フィードバックを統合します。

  • さらに、現実を忠実に反映した環境を作成することも、エージェントのパフォーマンスの向上に大きく役立ちます。WebShop [149] は、エージェントが検索や購入などのアクティビティに参加し、対応する報酬やフィードバックを受け取ることができる模擬電子商取引環境を開発しました。

  • [145] では、実施形態シミュレータを使用して、エージェントがシミュレートされた現実世界の環境で対話できるようにし、物理的な関与を促進し、したがって具体的な経験を促進します。これらのエクスペリエンスはモデルを微調整するために使用され、下流のタスクでのパフォーマンスが向上します。

注釈からの学習と比較して、環境フィードバックからの学習は、LLM ベースのエージェントの自律性と独立性の特性を明確に要約しています。この違いは、環境応答性と自律学習の間の深い相互作用を具体化しており、エージェントの行動と適応の微妙な理解を容易にします。

人間によるインタラクティブなフィードバックから学ぶ

人間によるインタラクティブなフィードバックは、エージェントが人間の指導の下で動的な方法でその動作を適応、進化、洗練する機会を提供します。1 回限りのフィードバックと比較して、インタラクティブなフィードバックは現実世界のシナリオに即しています。エージェントは動的なプロセスで学習するため、静的なデータを処理するだけでなく、理解、適応、人間との調整の継続的な改良に参加します。例えば:

  • [156] には、チャットベースの対話や人間からのフィードバックを通じて共同でタスクを完了できるようにする通信モジュールが組み込まれています。[122] で強調されているように、対話型フィードバックは、信頼性、透明性、即時性、タスクの特性、エージェントを学習する際の時間の経過に伴う信頼の進化などの重要な側面を促進します。

上の章では、アーキテクチャ設計とパラメータ最適化の 2 つの側面に焦点を当てて、エージェント ベースの構築戦略に関するこれまでの作業を要約しました。以前の研究と私たちの分類法の対応を表 1 に示します。

3 LLMに基づく自律エージェントの適用

LLM ベースの自律エージェントをさまざまなドメインに適用することは、問題の解決、意思決定、革新の方法におけるパラダイム シフトを表しています。言語の理解、推論、適応能力を備えたこれらのエージェントは、前例のない洞察、支援、ソリューションを提供することで、業界や分野に変革をもたらしています。

このセクションでは、社会科学、自然科学、工学という 3 つの異なる領域における LLM ベースの自律エージェントの変革的影響を検討します (図 3 の左側の全体的な概要を参照)。

3.1 社会科学

計算社会科学には、シミュレーションされたシナリオからのデータを含む、多くの場合大規模な複雑な人間の行動データを分析するための計算手法の開発と応用が含まれます[74]。

最近、LLM は人間に似た印象的な能力を示しており、社会計算科学の研究に有望です [54]。以下では、LLM ベースのエージェントが適用されている代表的なドメインを多数紹介します。

心理学: LLM ベースのエージェントは、心理学実験を行うために心理学で使用できます [1、3、95、163]。

  • [1] では、LLM ベースのエージェントを使用して、最後通牒ゲーム、ガーデン パス センテンス、ミルグラム ショック実験、群知能能力などの心理実験をシミュレートします。最初の 3 つの実験では、LLM ベースのエージェントは現在の心理学的発見を再現できましたが、最後の実験では、一部の言語モデル (ChatGPT や GPT-4 を含む) に「超精度の歪み」が明らかになり、下流のアプリケーションに影響を与える可能性があります。

  • [3] では、著者は LLM ベースのエージェントを使用して、ゲーム理論の分野で繰り返される 2 つの典型的なゲーム、つまり囚人のジレンマと男女の戦いをシミュレートします。彼らは、LLM ベースのエージェントが調整よりも自己利益を優先する心理的傾向を示すことを発見しました。

  • メンタルヘルスへの応用に関して、[95] はメンタルヘルス サポートを提供するために LLM ベースのエージェントを使用することの長所と短所について議論しました。

政治学と経済学: 最近の研究では、政治学と経済学で LLM ベースのエージェントが使用されています [5、59、163]。

  • これらのエージェントは、党派的な印象を分析したり、政治的主体が議題をどのように変更するかを調査したりするために使用されます。さらに、LLM ベースのエージェントは、イデオロギーの検出と投票パターンの予測に使用できます [5]。

  • さらに、最近の研究努力は、LLM ベースのエージェントの助けを借りて、政治的スピーチの談話構造と説得要素を理解することに焦点を当てています [163]。

  • Horton らによって行われた研究 [59] では、LLM ベースのエージェントは、才能、好み、性格などの特定の特性を持っています。これにより、研究者はシミュレーションされたシナリオで経済行動を調査し、経済学の分野に対する新たな洞察を得ることができます。

社会シミュレーション: 人間社会での実験は、多くの場合、費用がかかり、非倫理的、非道徳的、あるいは不可能ですらあります。対照的に、エージェントベースのシミュレーションを使用すると、研究者は特定のルールに基づいて仮定のシナリオを構築し、有害な情報の拡散などのさまざまな社会現象をシミュレーションできます。研究者は、マクロおよびミクロレベルでの観察および介入システムに取り組み、反事実的な出来事を研究することができます[110、81、76、109、89、73、50、140]。このプロセスにより、意思決定者はさらに多くのルールやポリシーを作成できるようになります。例えば:

  • Social Simulacara [110] は、オンライン ソーシャル コミュニティをシミュレートし、LLM ベースのエージェント シミュレーションを利用して意思決定者がコミュニティ規制を改善できる可能性を探ります。

  • [81, 76] は、ソーシャル ネットワークにおける LLM ベースのエージェントの行動特性と、ソーシャル ネットワークに対する潜在的な影響を調査しました。

  • Generative Agents [109] と AgentSims [89] は、複数のエージェントを含む町を構築します。

  • SocialAI School [73] は、子供の発達中に示される基本的な社会的認知スキルを研究するためにシミュレーションを採用しています。

  • S3 [50] は情報、感情、態度の拡散に焦点を当てており、[140] は感染症の蔓延に焦点を当てています。

法律: LLM ベースのエージェントは、法的意思決定プロセスにおいて補助的な役割を果たし、裁判官がより多くの情報に基づいた決定を下せるよう支援します [23, 56]。

  • Blind Judgment [56] は、複数の裁判官の意思決定プロセスをシミュレートするためにいくつかの言語モデルを採用しています。さまざまな意見を収集し、投票メカニズムを通じて結果を統合します。ChatLaw [23] は、中国法の分野で細かく調整された LLM です。モデルの錯覚の問題に対処するために、ChatLaw にはデータベース検索とキーワード検索技術が組み込まれており、精度が向上しています。一方、不正確な参照データの影響を軽減する LLM の能力を強化するために、セルフ アテンション メカニズムが採用されています。

社会科学のリサーチ アシスタント: ソーシャル コンピューティングのさまざまな分野で専門的な研究を実施することに加えて、LLM ベースのエージェントはリサーチ アシスタントの役割も果たすことができます [6, 163]。これらは、論文の要約の生成、キーワードの抽出、スクリプトの生成などのタスクで研究者を支援する可能性があります [163]。さらに、LLM ベースのエージェントは執筆補助として機能し、社会科学者向けの新しい研究クエリを特定することもできます [6]。

LLM ベースのエージェントの開発は、計算社会科学研究の分野に新しい研究手法をもたらしました。ただし、ソーシャル コンピューティングにおける LLM ベースのエージェントの適用には、依然としていくつかの課題と制限があります [163、6]。LLM は現実世界のデータセットからトレーニングされるため、固有のバイアス、差別的なコンテンツ、不公平の影響を受けやすくなります。そのため、2 つの大きな懸念事項はバイアスと有害性です。LLM が導入されると、偏った情報が生成され、それが LLM のトレーニングにさらに使用され、偏りが増幅される可能性があります。

因果関係と解釈可能性は、特に強い因果関係がしばしば要求される社会科学の文脈において、別の課題を提示します。確率ベースの LLM には、明示的な解釈可能性が欠けていることがよくあります。

3.2 自然科学

大規模言語モデルの急速な開発により、自然科学分野における LLM ベースのエージェントの適用が増加しています。これらの薬剤は、自然科学における科学研究に新たな機会をもたらします。以下では、LLM ベースのエージェントが重要な役割を果たすことができる代表的なドメインをいくつか紹介します。

文献とデータの管理: 自然科学研究の分野では、多くの場合、大量の文献やデータを慎重に収集、整理、抽出する必要があり、多くの時間と人的資源が必要です。LLM ベースのエージェントは強力な自然言語処理機能を備えているため、インターネット、ドキュメント、データベース、その他の情報ソースを参照するためのさまざまなツールに効率的にアクセスできます。この機能により、大量のデータを取得し、そのデータをシームレスに統合して管理できるため、科学研究に貴重な支援を提供できます [7、70、8]。

  • API を利用してインターネットにアクセスすることで、[7] のエージェントはリアルタイムの関連情報を効率的にクエリして取得でき、質問応答や実験計画などのタスクの完了に役立ちます。

  • ChatMOF [70] は、LLM を利用して人間が書いたテキスト記述から重要なポイントを抽出し、金属有機フレームワークの特性と構造を予測するために必要なツールキットを呼び出す計画を策定します。

  • データベースには豊富なカスタム データが含まれているため、データベースを使用すると、特定のドメインのエージェントのパフォーマンスがさらに向上します。たとえば、化学関連のデータベースにアクセスする場合、ChemCrow [8] は化合物の特性評価の正確さを検証したり、有害物質を特定したりできるため、より正確で情報に基づいた科学的調査に貢献できます。

自然科学実験アシスタント: LLM ベースのエージェントは自律的に動作し、独立して実験を実施でき、科学者の研究プロジェクトをサポートする貴重なツールとして機能します [7、8]。例えば:

  • [7] は、LLM を利用して科学実験の設計、計画、実行を自動化する革新的なエージェント システムを導入しました。実験目的が入力として提供されると、システムはインターネットにアクセスし、必要な情報の関連ファイルを取得します。次に、Python コードを使用して基本的な計算を実行し、最後に実験の一連のステップを実行します。

  • ChemCrow [8] には、化学研究者を支援するために特別に設計された 17 個の注意深く作成されたツールが含まれています。入力目標を受け取った後、ChemCrow は、提案された実験に関連する潜在的な安全リスクを慎重に強調しながら、実験手順に関する洞察に富んだ推奨事項を提供しました。

自然科学教育: 自然言語機能のおかげで、LLM は自然言語対話を通じて人間とのシームレスなコミュニケーションを促進し、リアルタイムの質問応答や知識の普及のための刺激的な教育ツールとなっています [7、129、30、18] 。例えば:

  • [7] は、実験計画、方法論、分析について学ぶ学生や研究者にとって価値のある教育ツールとしてエージェント システムを提案しました。科学的原理のより深い理解を促進しながら、批判的思考と問題解決スキルの開発に役立ちます。

  • 数学エージェント [129] は、人工知能技術を使用して数学的問題を探索、発見、解決、証明するエンティティです。Mathematics Agent は人間と通信して、数学の理解と使用を支援することもできます。

  • [30] CodeX [18] の力を活用して、少量の学習で大学レベルの数学問題の人間レベルの自動解決、解釈、生成を実現します。この成果は高等教育に重要な意味を持ち、コース設計および分析ツール、自動コンテンツ生成などの利点をもたらします。

自然科学研究をサポートするために LLM ベースのエージェントを使用することには、一定のリスクと課題も伴います。

  • 一方で、LLM 自体が幻覚やその他の問題に影響されやすい可能性があり、場合によっては間違った答えを出し、誤った結論や実験の失敗につながり、さらには危険な実験で人間の安全を脅かします。したがって、実験時には十分な注意を払うために必要な専門知識と知識が必要です。

  • 一方で、LLM ベースのエージェントは、化学兵器の開発などの悪意のある目的に使用される可能性があり、責任ある倫理的な使用を確保するために人間の調整などの安全対策の実装が必要です。

3.3 エンジニアリング

LLM ベースの自律エージェントは、工学研究とアプリケーションを支援および強化する上で大きな可能性を示します。このセクションでは、いくつかの主要なエンジニアリング ドメインにおける LLM ベースのエージェントのアプリケーションを検討し、要約します。

土木工学: 土木工学では、LLM ベースのエージェントを使用して、建物、橋、ダム、道路などの複雑な構造物を設計および最適化できます。[99] は、人間の建築家と AI エージェントが協力して 3D シミュレーション環境で構造を構築する対話型フレームワークを提案しました。インタラクティブ エージェントは、自然言語の指示を理解し、ブロックを配置し、混乱を検出し、説明を求め、人間のフィードバックを組み込むことができ、エンジニアリング設計における人間と AI のコラボレーションの可能性を示しています。

コンピュータ サイエンスとソフトウェア エンジニアリング: コンピュータ サイエンスとソフトウェア エンジニアリングでは、LLM ベースのエージェントは、自動コーディング、テスト、デバッグ、ドキュメント生成の可能性を提供します [115、113、58、29、33、44、41]。

  • ChatDev [113] は、複数のエージェントの役割が自然言語会話を通じて通信および協力し、ソフトウェア開発ライフサイクルを完了するエンドツーエンドのフレームワークを提案しています。このフレームワークは、実行可能ソフトウェア システムの効率的かつコスト効率の高い生成を示します。

  • ToolBench [115] は、コードの自動補完やコードの推奨などのタスクに使用できます。たとえば、ToolBench はコード内の関数名と変数名を自動的に補完したり、コード スニペットを推奨したりできます。

  • MetaGPT [58] は、コード生成を内部的に監督し、最終出力コードの品質を向上させるために、プロダクト マネージャー、アーキテクト、プロジェクト マネージャー、エンジニアなどの複数の役割を抽象化します。これにより、低コストでのソフトウェア開発が可能になります。

  • [29] は、ChatGPT を例として、LLM を使用したコード生成のための自己協調フレームワークを提案しました。このフレームワークでは、複数の LLM が、複雑なタスク内の特定のサブタスクに対して異なる「専門家」の役割を引き受けます。彼らは、割り当てられた指示に従って協力および対話し、互いの作業を促進する仮想チームを形成します。最終的には、仮想チームは人間の介入なしにコード生成タスクで共同作業します。

  • GPT Engineer [33]、SmolModels [44]、および DemoGPT [41] は、開発タスクを完了するためのヒントを通じてコードを自動的に生成することに焦点を当てたオープンソース プロジェクトです。

  • LLM は、コード エラーのテストと修正にも適用できます。LLIFT [79] は LLM を利用してコードの脆弱性を検出するための静的分析を支援し、精度とスケーラビリティのバランスをとります。

航空宇宙工学: 航空宇宙工学では、初期の研究では、LLM ベースのエージェントを使用して物理学をモデル化し、複雑な微分方程式を解き、設計を最適化することが検討されました。[107] は、航空力学、航空機設計、軌道最適化などの関連問題の解決において有望な結果を示しました。さらなる開発により、LLM ベースのエージェントは、エンジニアリング システムと統合された実行可能コードを生成することで、宇宙船の革新的な設計、流体の流れのシミュレーション、構造解析の実行、さらには自動運転車の制御さえも行うことができます。

産業オートメーション: 産業オートメーションの分野では、LLM ベースのエージェントを使用して、生産プロセスのインテリジェントな計画と制御を実現できます。[144] は、柔軟な制作ニーズを満たすために大規模言語モデル (LLM) をデジタル ツイン システムと統合するための新しいフレームワークを提案しました。このフレームワークは、ジャストインタイム エンジニアリング技術を利用して、デジタル ツインによって提供される情報に基づいて特定のタスクに適応できる LLMA エージェントを作成します。これらのエージェントは、一連のアトミックな機能とスキルを調整して、自動化ピラミッドのさまざまなレベルで生産タスクを完了できます。この研究は、LLM を産業オートメーション システムに統合して、より機敏で柔軟で順応性のある生産プロセスのための革新的なソリューションを提供する可能性を実証しています。

ロボティクスと組み込み AI : 最近の研究により、ロボットと組み込み AI 用のより効果的な強化学習エージェントが開発されました [25、160、106、143、133、161、60、142、154、28、2]。具体的な環境における自律エージェントの計画、推論、コラボレーション能力を強化することに焦点を当てています。

  • [25] などのいくつかのアプローチは、具体的な推論とタスク計画のための統合システムに相補的な強みを組み合わせています。高レベルのコマンドは計画を改善し、低レベルのコントローラーはコマンドをアクションに変換します。
    [160] の情報収集ダイアログを使用すると、トレーニングを高速化できます。[106、143] などの他の研究では、内部世界モデルに基づいて特定の決定と探索を行うために自律エージェントを採用しています。

  • 物理的な制約を考慮して、エージェントは実行可能な計画を生成し、複数のスキルを必要とする長期的なタスクを完了できます。制御戦略の観点から、SayCan [2] は移動マニピュレーター ロボットを利用したさまざまな操作およびナビゲーション スキルの研究に焦点を当てています。これは、キッチン環境で遭遇する典型的なタスクからインスピレーションを得ており、551 のスキルのコレクション (7 つのスキル ファミリ、17 のオブジェクトをカバー) を示しています。これらのスキルには、物体を選ぶ、置く、注ぐ、掴む、操作するなどのアクションが含まれます。

  • VOYAGAR [133] や GITM [161] などの他のフレームワークは、通信、共同作業、および複雑なタスクの完了が可能な自律エージェントを提案しています。これは、現実世界のロボット工学における自然言語理解、行動計画、人間とロボットの相互作用の可能性を示しています。

機能の開発により、適応型自律エージェントは、ますます複雑な特定のタスクを完了できるようになります。結論として、[60、142、154、28] の推論および計画機能で従来のアプローチを補完すると、組み込み環境における自律エージェントのパフォーマンスを大幅に向上させることができます。焦点は、サンプル効率、一般化機能を向上させ、長期的なタスクを達成するシステム全体にあります。

汎用自律 AI エージェント: LLM 開発に基づく多くのオープンソース プロジェクトは、汎用人工知能 (AGI) の予備調査を実施し、自律汎用 AI エージェントのフレームワークに取り組んでいます [45、43、38、40、35、36、42、これにより、開発者は有用な自律エージェントを迅速かつ確実に構築、管理、実行できるようになります。例えば:

  • LangChain [15] は、コーディング、テスト、デバッグ、ドキュメント生成タスクを自動化するオープンソース フレームワークです。LangChain は、言語モデルをデータ ソースと統合し、環境との対話を容易にすることで、自然言語コミュニケーションと複数のエージェント ロール間のコラボレーションを通じて、効率的でコスト効率の高いソフトウェア開発を可能にします。

  • LangChain に基づいて、XLang [36] は包括的なツール セット、完全なユーザー インターフェイスを提供し、データ処理、プラグインの使用、および Web エージェントという 3 つの異なるエージェント シナリオをサポートします。

  • AutoGPT [45] は完全に自動化されたネットワーク対応エージェントで、1 つ以上の目標を設定するだけで、それらを対応するタスクに自動的に分解し、目標に到達するまでループします。

  • WorkGPT [32] は、AutoGPT や LangChain に似たエージェント フレームワークです。命令と一連の API を与えることで、命令が完了するまで AI とやり取りすることができます。

  • AGiXT [40] は、多くのベンダー間で効率的な AI コマンド管理とタスク実行を調整するように設計された動的な AI 自動化プラットフォームです。

  • AgentVerse [35] は、研究者がカスタムのマルチ LLM ベースのエージェント シミュレーションを迅速に作成するのに役立つ一般的なフレームワークです。

  • GPT Researcher [34] は、大規模な言語モデルを活用して研究上の質問を効率的に作成し、Web クロールをトリガーして情報を収集し、ソースを集約し、概要を集約する実験的なアプリケーションです。

  • BMTools [114] は、LLM をツールで拡張し、コミュニティ主導のツールの構築と共有のためのプラットフォームを提供するオープンソース リポジトリです。さまざまなタイプのツールをサポートし、複数のツールで同時にタスクを実行できるようにし、URL 経由でプラグインをロードするためのシンプルなインターフェイスを提供することで、開発が容易になり、BMTools エコシステムへの貢献が容易になります。

結論として、LLM ベースの自律エージェントは、人間の創造性と生産性を向上させるために、さまざまなエンジニアリング分野で新たな可能性を切り開いています。LLM が推論能力と一般化能力で進歩し続けるにつれて、人間と AI の共生チームがエンジニアリングの革新と発見において新たな地平と能力を切り開くことが期待されます。

ただし、セーフティ クリティカルなエンジニアリング システムに LLM ベースのエージェントを導入する場合、信頼、透明性、制御を巡る問題が依然として残ります。堅牢性を確保しながら人間と AI の能力の適切なバランスを見つけることで、このテクノロジーがその潜在能力を最大限に発揮できるようになります。

上のセクションでは、LLM ベースの自律エージェントのアプリケーションに関する以前の研究を紹介します。より明確に理解するために、これらのアプリケーションを表 3 にまとめます。

4 LLMに基づく自律エージェントの評価

このセクションでは、LLM ベースの自律エージェントの有効性を評価するための評価方法を示します。LLM 自体と同様に、AI エージェントの評価は簡単な問題ではありません。ここでは、AI エージェントを評価するために一般的に使用される 2 つの評価戦略、つまり主観的評価と客観的評価を提案します。(図 3 の右側の概要を参照してください。)

4.1 主観的評価に基づく

LLM のエージェントには幅広い用途があります。ただし、多くの場合、エージェントのパフォーマンスを評価するための一般的な指標が不足しています。エージェントのインテリジェンスや使いやすさなど、基礎となる特性の一部も定量的な指標では測定できません。したがって、現在の研究では主観的な評価が不可欠です。

主観的評価とは、対話やスコアリングなどのさまざまな方法を通じて LLM ベースのエージェントをテストする人間の能力を指します。この場合、テストに参加するテスターは通常、クラウドソーシング プラットフォームを通じて採用されます [75、110、109、5、156]; 一方、一部の研究者は、個人差によりクラウドソーシングの担当者が不安定であり、テストには専門家の注釈付きを使用すると考えています [163] 。以下では、一般的に使用される 2 つのレバレッジ戦略を紹介します。

人間によるアノテーション: 一部の研究では、人間の評価者が、いくつかの特定の観点に基づいて、LLM ベースのエージェントによって生成された結果を直接ランク付けまたはスコア付けします [163、5、156]; 別の評価タイプは、ユーザー中心であり、人間の評価者に、ユーザー中心であるかどうかの回答を求めます。 LLM ベースのエージェント システムは彼らにとって有益であるか [110]、ユーザーフレンドリーであるかどうか [75] など。具体的には、考えられる評価の 1 つは、ソーシャル シミュレーション システムがオンライン コミュニティのルール設計を効果的に促進できるかどうかです [110]。

チューリング テスト: このアプローチでは、人間の評価者は常にエージェントと人間の行動を区別するように求められます。Generative Agents [109] では、人間の評価者の最初のグループは、インタビューを通じて 5 つの領域でエージェントの主要な能力を評価するように求められます。2 日間のプレイ時間の後、人間の評価者の別のグループが、同じ条件下でエージェントと人間の反応を区別するように求められます。Free-form Partisan Text の実験 [5] では、人間の評価者は、応答が人間からのものなのか、LLM ベースのエージェントからのものなのかを推測するよう求められます。

LLM ベースのエージェント システムは最終的に人間にサービスを提供するため、現段階では人間の評価が代替不可能な役割を果たしますが、高コスト、低効率、グループの偏りなどの問題もあります。LLM が進歩すると、タスクを評価する人間の役割をある程度果たせるようになります。

現在の研究の一部では、追加の LLM エージェントが結果の主観的な評価者として使用される可能性があります。ChemCrow [8] では、EvaluatorGPT は、タスクの正常な完了と基礎となる思考プロセスの精度の両方を考慮したスコアリングによって実験結果を評価します。ChatEval [12] は、モデルによって生成された結果を議論を通じて評価するために、LLM に基づいて複数のエージェント審判のチームを形成しました。LLM の進歩により、モデルの評価結果の信頼性が高まり、応用範囲がさらに広がると考えています。

4.2 客観的な評価

客観的な評価には、人間による評価に比べていくつかの利点があります。定量的な指標により、さまざまなアプローチ間の明確な比較が可能になり、長期にわたる進捗状況を追跡できます。大規模な自動テストが実現可能であり、少数のタスクではなく数千のタスクの評価が可能になります [113、5]。結果はより客観的で再現性も高くなります。

ただし、人間による評価では、自然さ、ニュアンス、社会的知性など、客観的に定量化することが難しい補完的な能力を評価できます。したがって、これら 2 つの方法を組み合わせて使用​​することができます。

客観的な評価とは、時間の経過とともに計算、比較、追跡できる定量的なメトリクスを使用して、LLM ベースの自律エージェントを評価する機能を指します。客観的な指標は、主観的または人間による評価と比較して、エージェントのパフォーマンスに関する具体的で測定可能な洞察を提供することを目的としています。このセクションでは、指標、戦略、ベンチマークの観点から客観的な評価方法を検討し、総合します。

指標: エージェントの有効性を客観的に評価するには、評価の正確さと包括性に影響を与える可能性がある適切な指標を設計することが重要です。理想的な評価指標は、エージェントの品質を正確に反映し、現実世界のシナリオで使用される場合に人間の認識と一致する必要があります。既存の研究では、次のような代表的な評価指標が見られます。

(1) タスクの成功指標: これらの指標は、タスクを完了し、目標を達成するエージェントの能力を測定します。一般的な指標には、成功率 [156、151、125、90]、報酬/スコア [156、151、99]、カバレッジ [161]、精度 [113、1、61] が含まれます。値が高いほど、タスクを完了する能力が高くなります。

(2) 人間の類似性の尺度: これらの尺度は、エージェントの行動が人間の行動にどの程度似ているかを定量化します。典型的な例には、軌跡/位置の精度 [163、133]、対話の類似性 [110、1]、人間の反応の模倣 [1、5] などがあります。類似性が高いほど、推論はより人間らしいものになります。

(3) 効率指標:上記のエージェントの有効性を評価する指標とは異なり、エージェントの効率を異なる観点から評価する指標です。典型的な指標には、計画期間 [90]、開発コスト [113]、推論速度 [161、133]、明確化ダイアログの数 [99] が含まれます。

戦略: 評価に使用される方法に基づいて、いくつかの一般的な戦略を特定できます。

(1) 環境シミュレーション: このアプローチでは、エージェントは、軌跡、言語使用、完了した目標など、タスクの成功と人間らしさの指標を使用して、ゲームやインタラクティブ フィクションなどの没入型 3D 環境で評価されます [16、156、161、151] 、133、99、137、85、149、155]。これは、現実世界のシナリオにおけるエージェントの実用的な機能を示しています。

(2) 独立した推論: このアプローチでは、研究者は、精度、チャネル完了率、アブレーション測定などの限られたタスクを使用して、基本的な認知能力に焦点を当てます [113、51、125、90、61、21、149、155]。このアプローチにより、個人のスキルの分析が簡素化されます。

(3) 社会的評価: [110、1、21、89、94] は、人間の研究と模倣の測定基準を使用して社会的知性を直接調査します。これにより、より高いレベルの社会的認知が評価されます。

(4) マルチタスク: [5、21、114、93、94、149、155] は、ゼロショット/フューショット評価に異なるドメインのさまざまなタスク スイートを使用します。これは一般化可能性を測定します。

(5) ソフトウェア テスト: [66、69、48、94] は、テスト ケースの生成、バグの再現、コードのデバッグ、開発者や外部ツールとの対話など、さまざまなソフトウェア テスト タスクにおける LLM の使用を検討しています。テストカバレッジ、エラー検出率、コード品質、推論能力などの指標を使用して、LLM ベースのエージェントの有効性を測定します。

ベンチマーク: 指標に加えて、客観的な評価はベンチマーク、対照実験、および統計的有意性のテストに依存します。多くの論文では、ALFWorld [151]、IGLU [99]、Minecraft [161133137] など、タスクと環境のデータセットを使用してエージェントを体系的にテストするベンチマークを構築しています。

  • Clembench [11] は、会話エージェントとしてチャットに最適化された言語モデルを評価するためのゲームベースのアプローチであり、特定の能力に挑戦するように設計された制約されたゲームのような設定に LLM をさらすことで、LLM を有意義に評価することを検討します。

  • Tachikuma [85] は、TRPG ゲーム ログを利用して、複数のキャラクターや新しいオブジェクトとの複雑な相互作用を理解および推測する LLM の能力を評価するベンチマークです。

  • AgentBench [93] は、さまざまな環境で自律エージェントとして LLM を評価するための包括的なフレームワークを提供し、主要なメトリックとして F1 を採用することで LLMAgent の標準化されたベンチマークを実現します。これは、さまざまなドメインにわたる現実世界の課題に対するエージェントとして、事前トレーニングされた LLM を初めて体系的に評価したものです。

  • SocKET [21] は、58 のタスクにおける大規模言語モデル (LLM) の社会知識能力を評価するための包括的なベンチマークであり、ユーモアと皮肉、感情と気持ち、信頼性を含む 5 つのカテゴリの社会情報をカバーしています。

  • AgentSims [89] は、大規模な言語モデルのテスト用サンドボックスを構築するための多用途のインフラストラクチャであり、データ生成や社会科学研究におけるさまざまな評価タスクやアプリケーションを容易にします。

  • ToolBench [114] は、ツール学習用の強力な大規模言語モデルをトレーニング、提供、評価するためのオープン プラットフォームを提供することで、汎用ツール使用機能を備えた大規模言語モデルの構築を促進することを目的としたオープンソース プロジェクトです。 。

  • Dialop [88] は、LLM ベースのエージェントの意思決定能力を評価するための、最適化、計画、および調停という 3 つのタスクで設計されています。

  • WebShop [149] ベンチマークは、属性の重複とリコールのパフォーマンスに基づく報酬を使用して、検索クエリとクリックを介して 118 万件の実世界アイテムに対する LLMAgent の製品検索と取得を評価します。

  • Mobile Env [155] は、情報ユーザー インターフェイス (InfoUI) と対話する際の、LLM ベースのエージェントのマルチステップ対話機能を評価するための基礎を提供する、簡単に拡張可能な対話プラットフォームです。

  • WebArena [159] は、共通ドメインを含む包括的な Web サイト環境を構築します。この環境は、完了したタスクの機能の正確性についてエンドツーエンドの方法でエージェントを評価するためのプラットフォームです。

  • GentBench [146] は、推論、安全性、効率などを含むエージェントのさまざまな能力を評価するために設計されたベンチマークです。さらに、複雑なタスクを処理するツールを利用するエージェントの能力の評価もサポートします。

要約すると、客観的な評価により、タスクの成功率、人間の類似性、効率、アブレーション研究などの指標を通じて、LLM ベースのエージェントの能力を定量的に評価できます。環境シミュレーションから社会評価に至るまで、さまざまな機能に対応する客観的な手法の多様なツールボックスが登場しました。

現在の技術では一般的な能力の測定には限界がありますが、客観的な評価は人間による評価を補完する重要な洞察を提供します。客観的な評価ベンチマークと手法が継続的に進歩することで、LLM ベースの自律エージェントの開発と理解がさらに進むでしょう。

上のセクションでは、LLM ベースの自律エージェントの主観的評価戦略と客観的評価戦略を紹介しました。この分野ではエージェントの評価が重要な役割を果たします。ただし、主観的評価にも客観的評価にもメリットとデメリットがあります。おそらく、実際には、エージェントの総合的な評価のためにそれらを組み合わせる必要があります。これまでの研究とこれらの評価戦略との対応関係を表 3 にまとめます。

5 関連概要

大規模な言語モデルの隆盛に伴い、さまざまな側面についての詳細な洞察を提供する多くの包括的な調査が登場しました。

  • [157] は、既存の研究の大部分を含めて、LLM の背景、主な発見、および主流の技術を幅広く紹介しています。

  • [148] は主に、さまざまな下流タスクへの LLM の適用と展開に関連する課題に焦点を当てています。LLM と人間の知能の統合は、偏見や幻覚などの問題に対処するための活発な研究分野です。

  • [136] データ収集とモデルのトレーニング方法を含む、既存の人間の調整技術をまとめました。

  • 推論は知能の重要な側面であり、意思決定、問題解決、その他の認知能力に影響を与えます。[62] は、LLM 推論能力に関する研究の現状を紹介し、その推論スキルを向上および評価する方法を探りました。[100] は、言語モデルを推論機能と拡張言語モデル (ALM) と呼ばれるツールを活用する機能で拡張できることを提案しています。これらは、ALM の最新の進歩についての包括的なレビューを提供します。

  • 大規模モデルの使用が一般的になるにつれて、そのパフォーマンスを評価することがますます重要になります。[14]では、LLMの評価、何を評価するか、どこを評価するか、下流業務におけるパフォーマンスと社会的影響をどのように評価するかを明確にしています。[13] では、さまざまな下流タスクにおける LLM の機能と制限についても説明されています。

前述の研究は、トレーニング、アプリケーション、評価を含む大規模モデルのあらゆる側面をカバーしています。しかし、この論文が出版されるまで、LLM ベースのエージェントという急速に台頭し、非常に有望な分野に特に焦点を当てた研究はありませんでした。この研究では、LLM ベースのエージェントに関する 100 件の関連研究をまとめ、その構築、適用、評価プロセスをカバーしました。

6つの課題

LLM ベースの自律 AI エージェントに関するこれまでの研究では、多くの有望な方向性が示されていますが、この分野はまだ初期段階にあり、開発過程には多くの課題があります。以下では、いくつかの重要な課題を提案します。

6.1 ロールプレイング能力

従来の LLM とは異なり、AI エージェントは通常、さまざまなタスクを完了するために特定の役割 (プログラムコーダー、研究者、化学者など) を演じる必要があります。したがって、エージェントのロールプレイング能力は非常に重要です。多くの一般的な役割 (映画評論家など) については、LLM はそれらをうまくモデル化できますが、LLM が理解するのに苦労している役割や側面がまだたくさんあります。

まず、LLM は通常、Web コーパスに基づいてトレーニングされるため、Web 上でほとんど議論されない役割や新しい役割については、LLM がそれらを適切にシミュレートできない可能性があります。さらに、以前の研究 [49] では、既存の LLM は人間の認知心理的特性を適切にモデル化できない可能性があり、その結果、対話シナリオで自己認識が欠如する可能性があることが示されています。これらの問題に対する潜在的な解決策は、LLM を微調整するか、エージェントのヒント/アーキテクチャを慎重に設計することである可能性があります [77]。たとえば、最初に珍しい性格や心理的特徴に関する実際の人間のデータを収集し、次にこのデータを使用して LLM を微調整できます。ただし、微調整されたモデルが依然として一般的な役割を適切に実行できることを保証する方法は、さらなる課題を引き起こす可能性があります。微調整に加えて、カスタム エージェント キュー/アーキテクチャを設計して、ロールプレイングの観点から LLM の機能を強化できます。ただし、設計空間が大きすぎるため、最適なヒント/アーキテクチャを見つけるのは簡単ではありません。

6.2 一般化された人間の価値観の調整

自律型 AI エージェントの分野では、特にエージェントがシミュレーションで使用される場合、この概念はより深く議論されるべきであると考えています。人間により良いサービスを提供するために、従来の LLM は通常、人間の正しい価値観に適合するように微調整されます。たとえば、エージェントは社会的復讐のために爆弾を製造する計画を立てるべきではありません。

ただし、エージェントが現実世界のシミュレーションで使用される場合、理想的なシミュレーターは、偽の値を持つものも含め、さまざまな人間の特性を正直に記述できる必要があります。実際、人間のネガティブな側面をシミュレートすることの方が重要である可能性があります。シミュレーションの重要な目的は問題を発見して解決することであり、ネガティブな側面がないということは、解決すべき問題がないことを意味するからです。たとえば、現実世界の社会をシミュレートするには、エージェントに爆弾の製造計画を許可し、エージェントがその計画をどのように実行するか、その行動の影響を観察する必要があるかもしれません。これらの観察に基づいて、人々は現実社会での同様の行為を防ぐためにより良い行動を取ることができます。

上記の事例からインスピレーションを得て、エージェントベースのシミュレーションが直面する可能性のある重要な問題は、一般化された人間の調整をどのように実行するかということです。つまり、さまざまな目的や用途に応じて、エージェントはさまざまな人間の価値観に調整できる必要があります。ただし、ChatGPT や GPT-4 を含む既存の強力な LLM のほとんどは、統一された人間の価値観と一致しています。したがって、興味深い方向性は、適切なプロンプト戦略を設計することによってこれらのモデルを「再調整」する方法です。

6.3 ヒントの堅牢性

エージェントの適切な動作を確保するために、設計者は通常、メモリや計画モジュールなどの追加モジュールを LLM に組み込みます。ただし、これらのモジュールを組み込むには、一貫した操作と効果的なコミュニケーションを促進するための追加の手がかりの開発が必要です。

以前の研究 [162, 52] では、小さな変更でも劇的に異なる結果が生じる可能性があるため、LLM キューの堅牢性の欠如が強調されています。この問題は、自律エージェントを構築する場合にさらに顕著になります。自律エージェントには単一のヒントではなく、すべてのモジュールを考慮したヒントのフレームワークが含まれており、1 つのモジュールからのヒントが他のモジュールに影響を与える可能性があるためです。

さらに、キューイング フレームワークは、LLM によって大きく異なる場合があります。さまざまな LLM に適用できる、統合された堅牢なジャストインタイム フレームワークを開発することは重要ですが、未解決の問題です。上記の問題には 2 つの解決策が考えられます。

  • (1) 基本的なプロンプト要素を試行錯誤によって手動で作成します。

  • (2) GPT を使用してヒントを自動生成します。

6.4 幻覚

幻覚は、モデルが誤って自信を持って偽の情報を出力する LLM にとって根本的な課題を引き起こします。この問題は自律エージェントでもよく発生します。たとえば、[67] では、コード生成タスクで単純な命令に遭遇したときにエージェントが幻覚症状を示す可能性があることが観察されました。幻覚は、誤ったコードや誤解を招くコード、セキュリティリスク、倫理的懸念などの深刻な結果を引き起こす可能性があります[67]。この問題に対処するために、考えられるアプローチの 1 つは、人間による修正フィードバックを人間と被験者のインタラクション ループに組み込むことです [58]。幻覚問題についての詳しい議論は [157] で見ることができます。

6.5 知識の境界

自律型 AI エージェントの重要な用途は、現実世界の人間のさまざまな行動をシミュレートすることです [109]。ヒューマン シミュレーションの研究には長い歴史があり、最近の関心の高まりは、人間の行動をシミュレートする際に顕著な能力を示した LLM の目覚ましい進歩によるものと考えられます。

ただし、LLM の機能が常に有益であるとは限らないことを認識することが重要です。具体的には、理想的なシミュレーションは人間の知識を正確に再現する必要があります。この点において、LLM は一般の人には手の届かない広範な Web 知識ベースで訓練されているため、過剰な力を発揮する可能性があります。LLM の巨大な能力は、シミュレーションの有効性に大きな影響を与える可能性があります。

たとえば、さまざまな映画に対するユーザーの選択動作をモデル化しようとする場合、LLM がこれらの映画について何も知らない状態にあることを確認することが重要です。ただし、LLM がこれらの映画に関する情報を入手している可能性があります。適切な戦略が実装されていない場合、現実世界のユーザーがこれらの映画のコンテンツに事前にアクセスできない場合でも、LLM は広範な知識に基づいて決定を下す可能性があります。上記の例に基づいて、信頼できるエージェントのシミュレーション環境を構築するには、LLM ユーザーの未知の知識の使用をどのように制限するかが重要な問題であると結論付けることができます。

6.6 効率

LLM の自己回帰アーキテクチャにより、推論速度は通常遅くなります。ただし、エージェントは、メモリ モジュールからの情報の抽出、アクションを実行する前の計画の策定など、アクションごとに LLM に複数回クエリを実行する必要がある場合があります。したがって、LLM 推論の速度はエージェントのアクションの効率に大きく影響します。同じ API キーを使用して複数のエージェントをデプロイすると、時間コストがさらに大幅に増加する可能性があります。

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/132549416