計算社会科学の新たな方向性 — 生成エージェントと高度なシミュレーションによる人間行動シミュレーション

生成エージェント: 人間の行動のインタラクティブなシミュレーション
https://arxiv.org/pdf/2304.03442.pdf

ここに画像の説明を挿入します

図 1: 生成エージェントは、インタラクティブなアプリケーション向けに人間の行動の信頼できるシミュレーションを作成します。この作品では、ザ・シムズを彷彿とさせるサンドボックス環境に 25 人のエージェントを配置することで、生成エージェントを実証します。ユーザーは、エージェントとして一日の計画を立てたり、ニュースを共有したり、人間関係を築いたり、グループ活動を調整したりするのを観察したり介入したりすることができます。

生成エージェントは、対話型アプリケーション向けに人間の行動の信頼できるシミュレーションを作成します。この記事では、生成エージェントの動作原理を示し、25 個のエージェントを「ザ・シムズ」と同様のサンドボックス環境に配置して実験します。ユーザーは、エージェントが日々の活動を計画し、ニュースを共有し、関係を構築し、グループ活動を調整するのを観察し、介入することができます。

人間の行動の信頼できるプロキシは、没入型環境から対人コミュニケーションのためのリハーサル スペース、プロトタイピング ツールに至るまで、インタラクティブなアプリケーションを強化できます。この論文では、信頼できる人間の行動をシミュレートする計算ソフトウェア エージェントである生成エージェントを紹介します。生成エージェントは目を覚まし、朝食を作り、仕事に向かいます。芸術家は絵を描き、作家は書く。彼らは意見を形成し、お互いに気づき、会話を始めます。彼らは次の日の計画を立てながら過去の日々を思い出し、振り返ります。生成エージェントを有効にするために、大規模な言語モデルを拡張して、自然言語を使用してエージェントの経験の完全な記録を保存し、それらの記憶を時間の経過とともにより高いレベルの反映に合成し、それらを動的に取得して行動を計画するアーキテクチャについて説明します。生成エージェントをインスタンス化して、ザ・シムズにインスピレーションを得たインタラクティブなサンドボックス環境を構築します。エンドユーザーは、自然言語を使用して 25 人のエージェントからなる小さな町と対話できます。評価では、これらの生成エージェントは、信憑性のある個人的かつ創発的な社会的行動を生成します。たとえば、あるエージェントがバレンタインデーのパーティーを開きたいというユーザー指定の 1 つの概念から始まり、エージェントは自律的にパーティーへの招待状を次の 2 つのイベントに広げます。日々、新しい知り合いを作り、お互いをパーティーのデートに誘い、適切な時間に一緒にパーティーに現れるように調整します。私たちは、アブレーションを通じて、エージェント アーキテクチャのコンポーネント (観察、計画、反映) がそれぞれエージェントの動作の信頼性に決定的に寄与していることを実証します。

信頼できる人間の行動プロキシ (おそらく ChatGPT のようなプロキシを指す) は、没入型環境、対人コミュニケーション リハーサル スペース、プロトタイピング ツールなどの対話型アプリケーションを強化できます。この記事では、信頼できる人間の行動をシミュレートする計算ソフトウェア エージェントである生成エージェントについて紹介します。生成エージェントは起床し、朝食を作り、仕事に行きます。アーティストは絵を描き、作家は書きます。意見を形成し、お互いに気づき、会話を始めます。過去の日を思い出して振り返り、将来の計画を立てます。これらのエージェントを実装するために、大規模な言語モデルを拡張して、自然言語を使用してエージェントのエクスペリエンスの完全な記録を保存し、これらの記憶を時間の経過とともにより高いレベルの反映に合成し、それらの記憶を動的に取得して動作を計画するアーキテクチャを導入します。私たちはエージェントをインスタンス化し、ザ・シムズにインスピレーションを得たインタラクティブなサンドボックス環境に配置します。ユーザーは自然言語を使用して 25 人のエージェントの町と対話できます。評価において、これらのエージェントは信頼できる個人と新たな社会的行動を生成します。たとえば、エージェントがバレンタインデーにパーティーを開きたいというユーザー指定のコンセプトから始めて、エージェントは 2 日以内に、新しい知人を自由に招待できるようになります。パーティーに参加し、パーティーに参加するためにお互いにデートし、パーティーに参加するのに適切な時間に現れるように調整します。私たちは、エージェント アーキテクチャのコンポーネントである観察、計画、反映が、それぞれエージェントの動作の信頼性に重​​要な貢献をしていることを実験的に示しています。この記事では、大規模な言語モデルとコンピューター対話型エージェントを融合することで、人間の行動の信頼できるシミュレーションを可能にするためのアーキテクチャと対話パターンを紹介します。

  1. Introduction
    1106字

信頼できる人間の行動を反映したインタラクティブな人工社会をどのように構築できるでしょうか? The Sims などのサンドボックス ゲームから認知モデル [21] や仮想環境 [9、58] などのアプリケーションに至るまで、研究者や実践者は 40 年以上にわたって、人間の行動の信頼できる代理として機能する計算エージェントを構想してきました。これらのビジョンでは、計算能力を備えたエージェントが過去の経験と一貫して行動し、環境に信じられないように反応します。人間の行動のこのようなシミュレーションは、現実的な社会現象を仮想空間やコミュニティに導入し [26、79]、まれではあるが困難な対人状況に対処する方法を人々に訓練し [43、51、93]、社会科学理論をテストする [11、45]、理論およびユーザビリティテスト用のモデルヒューマンプロセッサ [21、38、50]、

信頼できる人間の行動を反映したインタラクティブな人工社会をどのように構築するのでしょうか? The Sims のようなサンドボックス ゲームから、認知モデル [21] や仮想環境 [9、58] などのアプリケーションに至るまで、研究者や実践者は、人間の行動の信頼できるエージェントとして機能する計算エージェントを 40 年以上、10 年以上にわたって構想してきました。これらのシナリオでは、計算エージェントは、以前の経験に基づいて、住んでいる環境と一致する方法で動作し、信頼できる方法で環境に応答します。人間の行動のこのようなシミュレーションは、現実的な社会現象を仮想空間やコミュニティに導入し [26、79]、まれではあるが困難な対人関係に対処する方法を人々に訓練し [43、51、93]、社会科学理論をテストすることができます [11、45] 、理論的およびユーザビリティテスト済みのモデルヒューマンプロセッサの作成 [21、38、50]、ユビキタスコンピューティングアプリケーション [30] およびソーシャルロボット [9、13] の駆動、複雑な対人関係をナビゲートできるオープンワールド NPC のサポート [58、84] ]。

しかし、人間の行動の空間は広大かつ複雑です [84, 108]。単一時点での人間の行動を忠実にシミュレートできる大規模な言語モデル [17] は目覚ましい進歩を遂げている [38, 79] にもかかわらず、長期的な一貫性を保証する完全に汎用的なエージェントは、増え続ける記憶を新しいものとして管理するアーキテクチャにより適しているでしょう。複数のエージェント間で展開されるカスケード的な社会力学を処理しながら、相互作用、紛争、出来事が時間の経過とともに発生しては消えていきます。成功するには、長期にわたって関連する出来事ややり取りを取得し、それらの記憶を反映して一般化してより高いレベルの推論を導き出し、その推論を適用して、瞬間的にも長期的にも意味のある計画や反応を作成できるアプローチが必要です。エージェントの行動を表す用語。

しかし、人間の行動の空間は広大かつ複雑です [84, 108]。大規模な言語モデル [17] は、ある時点での人間の行動をシミュレートする点で大きな進歩を遂げました [38, 79] が、長期的な一貫性を保証する完全に汎用的なエージェントの方が、成長に対応できるエージェントを採用するのに適している可能性があります。これらの記憶の構造は、時間の経過とともに生じたり消えたりし、複数のエージェント間で展開されるカスケード的な社会力学を処理します。これを行うには、時間の経過とともに関連するイベントやインタラクションを取得し、これらの記憶を反映してより高いレベルの推論を一般化して定式化し、推論を適用して現代的かつエージェントの行動と一致するイベントを作成できる方法が必要です。 。

この論文では、生成エージェント (生成モデルに基づいて信頼できる人間の行動をシミュレートするエージェント) を紹介し、それらが個人の行動と創発的なグループの行動の両方の信頼できるシミュレーションを生成することを実証します。生成エージェントは、自分自身、他のエージェント、およびその環境についてさまざまな推論を引き出します。彼らは自分の特性と経験を反映した毎日の計画を作成し、それらの計画を実行し、反応し、必要に応じて再計画します。エンドユーザーが環境を変更したり、自然言語で命令したりすると、応答します。たとえば、生成エージェントは、朝食が燃えているのを見るとストーブを消し、バスルームが使用されている場合は外で待ち、話したい別のエージェントに出会ったら立ち止まっておしゃべりをします。

この論文では、生成モデルを利用して信頼できる人間の行動をシミュレートする生成エージェントを紹介し、それらが個人およびグループの行動の信頼できるシミュレーションを生成することを示します。生成エージェントは、自分自身、他のエージェント、およびその環境からさまざまな推論を導き出します。生成エージェントは、自分の特性や経験を反映する毎日の計画を作成し、これらの計画を実行し、必要に応じて反応および再計画します。エンドユーザーが環境や環境に応じて反応します。自然言語で命令された場合。たとえば、生成エージェントは朝食が燃えているのを見ると、コンロを消してバスルームの外で待ち、別のエージェントが話したい場合は立ち止まってチャットします。生成エージェントで満たされた社会は、新しい関係が形成され、情報が拡散し、エージェント間で調整が行われる新しい社会力学によって特徴付けられます。

生成エージェントを有効にするために、大規模な言語モデルを使用して信頼できる動作を生成するために、関連するメモリを保存、合成、および適用するエージェント アーキテクチャについて説明します。私たちのアーキテクチャは 3 つの主要なコンポーネントで構成されています。1 つ目は、エージェントの経験の包括的なリストを自然言語で記録する長期記憶モジュールであるメモリー ストリームです。検索モデルは、関連性、最新性、重要性を組み合わせて、エージェントの瞬間ごとの行動を通知するために必要なレコードを明らかにします。2 つ目は反省です。これは、時間の経過とともに記憶をより高いレベルの推論に合成し、エージェントが自分自身や他者についての結論を導き出し、その行動をより適切に導くことができるようにします。3つ目は企画、これらの結論と現在の環境を高レベルの行動計画に変換し、その後再帰的に行動と反応のための詳細な行動に変換します。これらの反映と計画はメモリ ストリームにフィードバックされ、エージェントの将来の動作に影響を与えます。

生成エージェントを可能にするために、大規模な言語モデルを使用して関連する記憶を保存、合成、適用して信頼できる動作を生成できるエージェント アーキテクチャについて説明します。私たちのアーキテクチャは 3 つの主要なコンポーネントで構成されています。1 つ目は、エージェントの完全なエクスペリエンスを自然言語で記録する長期記憶モジュールであるメモリー ストリーミングです。検索モデルは、関連性、最新性、重要性を組み合わせて、エージェントの即時のアクションを通知するために必要なレコードを抽出します。2 つ目は反省です。これは、時間の経過とともに記憶をより高いレベルの推論に合成し、エージェントが自分自身と他者についての結論を導き出し、その行動をより適切に導くことができるようにします。3 番目は計画です。これは、これらの結論と現在の状況を高レベルの行動計画に変換し、その後、再帰的に詳細な行動と反応に変換します。これらの反映と計画はメモリ ストリームにフィードバックされ、エージェントの将来の動作に影響を与えます。

このアーキテクチャは、ロールプレイングやソーシャル プロトタイピングから仮想世界やゲームに至るまで、複数のドメインでのアプリケーションを提案します。社会的なロールプレイのシナリオ (例: 面接の準備) では、ユーザーは困難で対立を伴う会話を安全にリハーサルできます。ソーシャル プラットフォームのプロトタイピングを行う場合、デザイナーは一時的なペルソナを超えて、時間の経過とともに展開される動的で複雑なインタラクションのプロトタイプを作成できます。このペーパーの目的として、私たちは、The Sims などのゲームに触発されたエージェントの小規模でインタラクティブな社会を作成する能力に焦点を当てます。私たちのアーキテクチャを ChatGPT の大規模言語モデル [76] に接続することにより、ゲーム環境内に 25 人のエージェントからなる小さな社会を明示します。エンド ユーザーは、これらのエージェントを観察し、対話することができます。たとえば、エンド ユーザーまたは開発者がゲーム内のバレンタイン デー パーティーを町で開催したいと考えた場合、次のようになります。従来のゲーム環境では、数十のキャラクターの動作を手動でスクリプト化する必要がありました。生成エージェントを使用すると、エージェントにパーティーを開きたいと伝えるだけで十分であることを示します。多くの潜在的な失敗点 (パーティーのプランナーは他のエージェントにパーティーのことを忘れずに伝える必要がある、出席者は招待状を覚えていなければならない、覚えている人は実際に出席するかどうかを決定する必要がある) など、潜在的な失敗点がたくさんあるにもかかわらず、この環境のエージェントは成功します。彼らはパーティーについての情報を広め、その後現れ、あるエージェントが別のエージェントにパーティーへのデートを尋ねることさえあります。これらはすべて、このユーザーが生成した 1 つのシード提案から行われます。エージェントにパーティーを開きたいと伝えるだけで十分です。多くの潜在的な失敗点 (パーティーのプランナーは他のエージェントにパーティーのことを忘れずに伝える必要がある、出席者は招待状を覚えていなければならない、覚えている人は実際に出席するかどうかを決定する必要がある) など、潜在的な失敗点がたくさんあるにもかかわらず、この環境のエージェントは成功します。彼らはパーティーについての情報を広め、その後現れ、あるエージェントが別のエージェントにパーティーへのデートを尋ねることさえあります。これらはすべて、このユーザーが生成した 1 つのシード提案から行われます。エージェントにパーティーを開きたいと伝えるだけで十分です。多くの潜在的な失敗点 (パーティーのプランナーは他のエージェントにパーティーのことを忘れずに伝える必要がある、出席者は招待状を覚えていなければならない、覚えている人は実際に出席するかどうかを決定する必要がある) など、潜在的な失敗点がたくさんあるにもかかわらず、この環境のエージェントは成功します。彼らはパーティーについての情報を広め、その後現れ、あるエージェントが別のエージェントにパーティーへのデートを尋ねることさえあります。これらはすべて、このユーザーが生成した 1 つのシード提案から行われます。

このアーキテクチャは、ロールプレイングやソーシャル プロトタイピングから仮想世界やゲームに至るまで、さまざまなドメインに応用できます。ソーシャル ロールプレイング シナリオ (面接の準備など) では、ユーザーは困難で衝突の多い会話を安全にリハーサルできます。ソーシャル プラットフォームのプロトタイピングを行う場合、デザイナーは一時的なキャラクターを超えて、時間の経過とともに展開される動的で複雑なインタラクションのプロトタイプを作成できます。この記事の目的として、私たちは、The Sims のようなゲームにインスピレーションを得た、小規模なインタラクティブなエージェント 社会の構築に焦点を当てます。私たちのアーキテクチャを ChatGPT の大規模言語モデル [76] に接続することにより、ゲーム環境内に 25 人のエージェントからなる小さな社会を生み出しました。エンド ユーザーは、これらのエージェントを観察し、対話することができます。たとえば、エンド ユーザーまたは開発者がゲーム内でバレンタイン デー パーティーを主催したい場合、従来のゲーム環境では数十のキャラクターの動作を手動でコーディングする必要がありました。生成エージェントを使用すると、エージェントにパーティーを主催したいと伝えるだけで十分であることを示します。潜在的な失敗点は多数ありますが、パーティーのプランナーは他のエージェントにパーティーのことを忘れずに通知する必要があり、出席者は招待状を覚えていなければならず、覚えている人は実際に出席するかどうかを決定する必要があり、その他の考えられる失敗点もありますが、この環境のエージェントは成功しています。彼らはパーティーの情報を広め、さらにエージェントの 1 人が別のエージェントをパーティーに招待しました。これらはすべて、ユーザーが生成した 1 つのシード提案から始まりました。

生成エージェントの 2 つの評価を実施しました。1 つは、エージェントが単独で信頼できる個々の動作を生成するかどうかをテストする制御された評価で、もう 1 つは生成エージェントが 2 日間のゲーム時間にわたってオープンエンドの方法で相互作用するエンドツーエンドの評価です。彼らの安定性と新たな社会的行動を理解するため。技術的評価では、自然言語で「インタビュー」することでエージェントの知識と行動を評価する方法論的な機会を活用し、エージェントの性格を維持し、記憶し、計画し、反応し、正確に反映する能力を調査します。私たちは、エージェントの記憶、反省、計画へのアクセスを制限するいくつかのアブレーションを比較しました。これらの各コンポーネントは、インタビュー タスク全体で優れたパフォーマンスを発揮するために重要であることがわかりました。技術的な評価とエンドツーエンドの評価全体にわたって、

我々は、生成エージェントの 2 つの評価を実施しました。1 つは、エージェントが単独で信頼できる個人の行動を生成する能力をテストするための制御された評価で、もう 1 つは、生成エージェントがオープンな方法で相互に作用し、安定した創発的な社会的評価を行うエンドツーエンドの評価です。 2 日間のプレイでの行動。技術的評価では、自然言語でエージェントに「インタビュー」することでエージェントの知識と行動を評価する方法論的な機会を利用し、パフォーマンス、記憶、計画、反応、反省におけるエージェントの能力を調査しました。エージェントの記憶へのアクセス、反映、計画の能力を損なういくつかのモデルを比較します。これらのコンポーネントのそれぞれが、インタビュー タスクで優れたパフォーマンスを発揮するために重要であることがわかりました。技術的な評価とエンドツーエンドの評価の両方において、最も一般的なエラーは、エージェントが関連する記憶を取得できないこと、エージェントの記憶の架空の装飾、または言語モデルから過度に形式的な言語や動作を継承することです。

要約すると、この文書は次のような貢献を提供します。

生成エージェント。エージェントの変化する経験や環境に動的に条件付けられる、人間の行動の信憑性のあるシミュラクル。
生成エージェントが動的に進化する状況を記憶し、検索し、反映し、他のエージェントと対話し、計画を立てることを可能にする新しいアーキテクチャ。このアーキテクチャは、大規模な言語モデルの強力なプロンプト機能を活用し、それらの機能を補完して、長期的なエージェントの一貫性、動的に進化するメモリを管理する機能、およびより多くの世代を再帰的に生成する機能をサポートします。
2 つの評価 (制御された評価とエンドツーエンドの評価) は、アーキテクチャのコンポーネントの重要性の因果関係を確立し、たとえば不適切なメモリ取得から生じる故障を特定します。
インタラクティブ システムにおける生成エージェントの機会と倫理的および社会的リスクについての議論。私たちは、これらのエージェントは、ユーザーがパラソーシャルな関係を形成するリスクを軽減するように調整され、ディープフェイクやカスタマイズされた説得から生じるリスクを軽減するためにログに記録され、設計プロセスにおいて人間の利害関係者を置き換えるのではなく補完する方法で適用されるべきであると主張します
。 :

生成エージェントは、エージェントの変化する経験や環境によって動的に影響を受ける、人間の行動の信頼できるシミュレーションです。
生成エージェントが動的に進化する状況を記憶し、取得し、反映し、相互作用し、計画を立てることを可能にする新しいアーキテクチャ。このアーキテクチャは、大規模な言語モデルの強力なヒンティング機能を最大限に活用し、これらの機能を補完して、長期的なエージェントの一貫性をサポートし、動的に進化するメモリを管理し、より多くのエージェントを再帰的に生成します。
2 つの評価 (制御評価とエンドツーエンド評価) により、アーキテクチャ コンポーネントの因果関係が確立されると同時に、不適切なメモリ取得などの理由による障害も特定されました。
インタラクティブシステムにおける生成エージェントの機会と倫理的および社会的リスクが調査されます。私たちは、これらのエージェントは、ユーザーが滞在者関係を形成するリスクを軽減するように適切に調整され、ディープフェイクやカスタマイズされた説得から生じるリスクを軽減するように文書化され、設計プロセスにおける人間の利害関係者の関与を補完するが代替するものではないように設計されるべきであると主張します。

  1. 関連研究
    このセクションでは、人間と AI の相互作用に関する先行文献を振り返り、人間の行動の信頼できる代理を構築するという課題をその規範の中に位置づけます。この課題は、かつてはインタラクション、ゲーム、人工知能のコミュニティにおいて北極星として賞賛されました [9、58、84、85] が、人間の行動の複雑さのために依然として困難なままです [16、108]。私たちはこの研究を総合して、大規模な言語モデルだけでは十分ではありませんが、適切なアーキテクチャを使用して活用すると、信頼できるエージェントを作成するための新しい角度を開くことができることを示唆しています。

このセクションでは、信頼できる人間のアクション エージェントのアジェンダを構築するために、人間と AI のインタラクションの分野における以前の文献をレビューして組み込みます。この課題は、かつてはインタラクション、ゲーム、人工知能のコミュニティにおける羅針盤として歓迎されました [9、58、84、85] が、人間の行動の複雑さのために依然として困難なままです [16、108]。私たちはこの研究を総合して、大規模な言語モデルだけでは不十分ではあるが、適切なアーキテクチャと組み合わせることで、信頼できるエージェントを作成するための新しい展望を開くことができると提案しています。

2.1 人間と AI のインタラクション
インタラクティブな人工知能システムは、ユーザーを強化できる計算成果物に人間の洞察と機能を組み合わせることが目的です [3, 29]。ユーザーがモデルの動作を対話的に指定できるようにする方法を探求する長い研究が行われてきました。たとえば、Crayons は対話型機械学習の初期のビジョンを実証し、専門家以外のユーザーでも分類器をトレーニングできるようにしました [29]。さらなる作業は、例 [33] やデモンストレーション [31] を通じて、エンド ユーザーが分類目標をシステムにどのように説明できるかを明確にするのに役立ちました。最近の研究では、これらの探求が深層学習 [62] やプロンプトベースのオーサリング [49、66、106] に拡張されています。

インタラクティブな人工知能システムは、人間の洞察と能力をコンピューター ツールと組み合わせてユーザーに力を与えることを目的としています [3、29]。ユーザーがモデルの動作を対話的に指定できるようにする方法の探索には、長い間多くの研究が費やされてきました。たとえば、Crayons は対話型機械学習の初期のビジョンを実証し、専門家以外のユーザーでも分類器をトレーニングできるようにしました [29]。さらなる研究は、例 [33] やデモンストレーション [31] を通じて、エンド ユーザーが分類目標をシステムにどのように説明できるかを説明するのに役立ちました。最近の研究では、これらの探求が深層学習 [62] およびプロンプトベースのオーサリング [49、66、106] に拡張されています。

一方、継続的な研究の流れにより、人間とコンピューターの対話における言語およびエージェントベースの対話のケースが前進しました。SHRDLU [103] や ELIZA [102] などの形成的研究は、コンピューティング システムとの自然言語対話の機会とリスクを実証しました。研究が進むにつれて、自律エージェントが委任と相互作用の新しいメタファーを提供できることが明らかになりました [67] が、人間とエージェントの間の委任の境界線については議論され、洗練され続けています [46、88、89]。最近、この技術は十分に安定しており、大規模で複雑なオンライン社会環境でエージェントが自然言語を介して対話できるようになりました (例: [54])。自然言語対話は、写真編集 [2、34、64] やコード編集 [87] などの分野でユーザーの能力を拡張できる新しいモダリティを提供します。

同時に、言語およびエージェントベースの人間とコンピューターの対話に関する事例を前進させる研究アプローチが進行中です。SHRDLU [103] や ELIZA [102] などの先駆的な研究は、コンピューティング システムとの自然言語対話の機会とリスクを実証しています。研究が進むにつれて、AI エージェントは新しい委任と相互作用のメタファーを提供できるようになります [67] が、人間とエージェントの間の境界については引き続き議論され、洗練され続けています [46、88、89]。最近、この技術は十分に安定しており、大規模で複雑なオンライン社会環境でエージェントが自然言語を介して対話できるようになりました (例: [54])。自然言語対話は、写真編集 [2、34、64] やコード編集 [87] などの分野でユーザーの機能を拡張できる新しいモダリティを提供します。

私たちはこれらの作業スレッドを招集して、対話型システムの人間の行動を代理し、自然言語を介して対話するエージェントを作成できることを示します。そうすることで、この研究は、GOMS や KLM などの認知モデル [21、22]、プロトタイピング ツール [79]、ユビキタス コンピューティング アプリケーション [25、30、100] などの基本的な HCI の疑問を検討する扉を再び開きます。

2.2 人間の行動の信頼できる代理
以前の文献では、信頼性、または信頼できるエージェントが設計およびエンジニアリングの中心的な目標として説明されています。信頼できるエージェントは、ディズニー映画の登場人物と同様に、生命の錯覚を提供し、自分の意志で決定を下し行動するように見える方法で現実主義のファサードを提示するように設計されています [9, 95]。これらのエージェントは、私たちが住んでいるようなオープンワールド環境に生息して認識することができ[9, 58]、私たちの信頼できる代理人になることを目的として、ユーザーまたは他のエージェントとの社会的相互作用に基づいた創発的な行動を示す方法で行動しようと努めます。個人とコミュニティの仮説シミュレーションにおける行動 [19、35、70]。歴史的に、これらのエージェントはインテリジェント ゲーム NPC のコンテキストで開発されました [58、84]。可能であれば、信頼できる動作をする NPC を作成する 創発的な物語 [7、15、48、92] やエージェントとの社会的相互作用 [110] を可能にすることで、ゲームやインタラクティブなフィクションにおけるプレイヤーの体験を向上させることができます。しかし、より重要なことは、ゲームの世界は現実世界のアフォーダンスをますます現実的に表現しており、2001 年に Laird と van Lent が観察したように、これらのシミュレートされた世界は、信頼できるエージェントの開発者が実装を心配することなくエージェントの認知能力を微調整するためのアクセス可能なテストベッドを提供していることです。現実世界でのロボット工学、またはシミュレーション環境を最初から作成する [58、84]。

先前的文献已经将可信度或可信智能体描述为中心设计和工程目标。可信智能体被设计为提供生命的幻觉,并以类似迪士尼电影中的角色的方式呈现出真实感,决策和表现出的自主性,[9, 95]。这些智能体可以在类似于我们所居住的一样的开放世界环境中进行人口普查和感知[9, 58],并努力表现出以社交互动为基础的涌现行为,以成为我们在人物和社区虚拟仿真中的信任代理[19, 35, 70]。历史上,这些智能体是在智能游戏NPC [58, 84]的背景下开发的。如果可能创建具备可信行为的NPC,将增强游戏和交互小说中玩家经验,从而使涌现的叙事和智能体之间的社交互动成为可能[7, 15, 48, 92]。然而,更重要的是,游戏世界提供越来越现实的现实世界的表现,并且正如Laird和van Lent在2001年所观察到的那样,这些模拟世界为可信智能体的开发人员提供了可访问的测试平台,以微调智能体的认知能力而不必担心在现实世界中实现机器人或从头开始创建仿真环境[58, 84]。

過去 40 年にわたって、信頼できるエージェントを作成するためのさまざまなアプローチが登場しました。ただし、実装では、これらのアプローチは、多くの場合、環境やエージェントの動作の側面を簡素化し、取り組みをより管理しやすくします [16、72]。有限状態マシン [90、96] やビヘイビア ツリー [40、53、81] などのルールベースのアプローチは、エージェントの動作を人間がオーサリングするブルート フォース アプローチを説明します [70]。これらは、今日でも最も有力なアプローチである単純なエージェントを作成する簡単な方法を提供し [68、73、109]、Mass Effect [12] や The Sims [6] などのシミュレーション ゲームで示されているように、初歩的な社会的相互作用も処理できます。 ] シリーズ。それにもかかわらず、オープンワールドで起こり得る幅広いインタラクションに包括的に対応できる動作を手動で作成することは不可能です。これは、結果として生じるエージェントの動作が、対話の結果を完全には表していない可能性があり [69-71]、スクリプトにハードコーディングされていない新しい手順を実行できないことを意味します [90、96]。一方で、信頼できるエージェントを作成するための強化学習などの学習ベースのアプローチが普及しており、エージェントにその動作を学習させることで手動作成の課題を克服し、近年、AlphaStar for Starcraft などのゲームで超人的なパフォーマンスを達成しています。 [98] および Dota 2 用 OpenAI Five [10]。ただし、その成功は主に、学習アルゴリズムによって最適化できる報酬を容易に定義できる敵対ゲームで行われています。彼らは、オープンワールドで信頼できるエージェントを作成するという課題にまだ取り組んでいません[39、73、90]。

過去 40 年にわたり、信頼できるエージェントを作成するためのさまざまなアプローチが登場してきました。ただし、実装中に、これらの方法は多くの場合、エージェントの動作のコンテキストや側面を単純化し、取り組みを管理しやすくします [16、72]。有限状態マシン [90、96] や動作ツリー [40、53、81] などのルールベースの方法は、エージェントの動作を人為的に指定するブルート フォース アプローチに取り組んでいます [70]。これらは、単純なエージェントを作成するためのシンプルかつ明確な方法を提供し、現在でも最も主流の方法 [68、73、109] であり、シミュレーション ゲーム Mass Effect [12] や As Showin the Sims などの基本的な社会的インタラクションを処理することもできます。 [6]シリーズ。ただし、オープンワールドでの動作を手作りして、起こり得るインタラクションの範囲に完全に対応することは現実的ではありません。これは、結果として生じるエージェントの動作が、対話の結果を適切に表していない可能性があることを意味し [69-71]、スクリプトにハードコードされていない新しいプログラムを実行できない可能性もあります [90、96]。一方、強化学習など、信頼できるエージェントを作成するための学習ベースの普及手法は、エージェントにその動作を学習させることでハンドコーディングの課題を克服し、最近のゲームで超人的なパフォーマンスを達成しました。たとえば、AlphaStar [98] 「StarCraft」のOpenAI Five [10]「Dota Heroes」。ただし、彼らの成功は主に、学習アルゴリズムが最適化できる報酬を単純に定義した敵対ゲームで発生しました。彼らは、オープンワールドで信頼できるエージェントを作成するという課題をまだ解決していません[39、73、90]。

Newell によって開拓された計算における認知アーキテクチャは、元のビジョンに含まれる信頼できるエージェントの包括的な性質に適した、包括的な一連の認知機能をサポートするためのインフラストラクチャを構築することを目的としていました [75]。彼らは、信頼できるエージェントの初期の例のいくつかを刺激しました。たとえば、Quakebot-SOAR [59] と ICARUS [24、63] は一人称シューティング ゲームで NPC を生成し、TacAir-SOAR [80] は空戦訓練シミュレーションでパイロットを生成しました。これらのエージェントによって使用されるアーキテクチャは異なりました (Quakebot-SOAR と TacAir-SOAR は SOAR [60] に依存していましたが、ICARUS は SOAR と ACT-R [5] からインスピレーションを得た独自のバリエーションに依存していました) が、同じ基礎原理を共有していました。 61]。彼らは短期および長期の記憶を維持し、これらの記憶を象徴的な構造で満たし、知覚-計画-行為のサイクルで動作しました。環境を動的に認識し、それを手動で作成されたアクション手順の 1 つと照合します [57、96]。コグニティブ アーキテクチャを使用して作成されたエージェントは、すべてではないにしても、ほとんどのオープンワールド コンテキストに一般化できることを目指しており、当時としては堅牢な動作を示しました。しかし、彼らの行動範囲は手動で作成された手順上の知識に限定されており、エージェントが新しい行動を模索するように動機付けられるメカニズムは提供されませんでした。そのため、これらのエージェントは主に、一人称シューティング ゲーム [24、59] やブロックワールド [63] などの非オープンワールドのコンテキストで展開されました。オープンワールドのコンテキストに対応し、当時としては堅牢な動作を示しました。しかし、彼らの行動範囲は手動で作成された手順上の知識に限定されており、エージェントが新しい行動を模索するように動機付けられるメカニズムは提供されませんでした。そのため、これらのエージェントは主に、一人称シューティング ゲーム [24、59] やブロックワールド [63] などの非オープンワールドのコンテキストで展開されました。オープンワールドのコンテキストに対応し、当時としては堅牢な動作を示しました。しかし、彼らの行動範囲は手動で作成された手順上の知識に限定されており、エージェントが新しい行動を模索するように動機付けられるメカニズムは提供されませんでした。そのため、これらのエージェントは主に、一人称シューティング ゲーム [24、59] やブロックワールド [63] などの非オープンワールドのコンテキストで展開されました。

Newell によって開拓されたコンピュータ認知アーキテクチャは、当初想定されていた信頼できるエージェントのオールラウンドな性質に適応し、包括的な認知機能 [75] をサポートするインフラストラクチャを構築することを目的としています。彼らは、信頼できるエージェントの初期の例のいくつかを推進しました。たとえば、Quakebot-SOAR [59] と ICARUS [24、63] は一人称シューティング ゲームで NPC を生成し、TacAir-SOAR [80] は空戦訓練シミュレーションでパイロットを生成します。これらのエージェントで使用されるアーキテクチャは異なります (Quakebot-SOAR と TacAir-SOAR は SOAR [60] に依存していますが、ICARUS は SOAR [5] と ACT-R [5] からインスピレーションを得た独自のバリアントに依存しています) が、基本的な点は同じです。原則[61]。彼らは短期および長期の記憶を維持し、これらの記憶に象徴的な構造を埋め込み、知覚-計画-行動のサイクルで動作し、環境を動的に感知し、それを手動で作成された行動方針の1つに一致させます[57、96]。コグニティブ アーキテクチャを使用して作成されたエージェントは、ほとんどのオープンワールド コンテキストで動作し、時間安定した動作を示すように設計されています。ただし、彼らの行動範囲は手動で作成されたプログラムされた知識に限定されており、エージェントに新しい行動を求めるよう促すメカニズムは提供されません。したがって、これらのエージェントは主に、一人称シューティング ゲーム [24、59] やブロックワールド [63] など、オープンワールド以外のコンテキストで展開されます。

現在でも、元の定義で説明されている信頼できるエージェントを作成することは未解決の問題のままです [84、108]。多くの人は、信頼できるエージェントを作成するための既存のアプローチは面倒で制限があるかもしれないが、既存のゲームプレイとインタラクションをサポートするのに十分であると主張して、先に進んでいます [23、74、108]。私たちの主張は、記憶を信頼できる動作に合成するための効果的なアーキテクチャを作成できれば、大規模な言語モデルはこれらの問題を再検討する機会を提供するというものです。この文書では、そのようなアーキテクチャに向けた一歩を提供します。

現在でも、元の定義に従って信頼できるエージェントを作成することは未解決の問題のままです [84、108]。信頼できるエージェントを作成する既存の方法は面倒で制限があるかもしれないが、既存のゲームプレイとインタラクションをサポートするには十分であると主張して、多くの人が諦めています[23、74、108]。私たちの主張は、記憶を信頼できる動作に合成するための効率的なアーキテクチャを設計できれば、大規模な言語モデルはこれらの問題を再検討する機会を提供するというものです。この記事では、解決策の手順を説明します。

2.3 大規模な言語モデルと人間の行動
生成エージェントは、大規模な言語モデルを利用してその動作を強化します。重要な観察は、大規模な言語モデルが、トレーニング データで表される広範囲の人間の行動をエンコードしているということです [14、17]。狭義に定義されたコンテキストでプロンプトが表示された場合、モデルを使用して信頼できる動作を生成できます。最近の研究では、このアプローチの有効性が実証されています。たとえば、Social Simulacra は大規模な言語モデルを使用して、新しいソーシャル コンピューティング システムに実装するユーザーを生成し、新たな社会ダイナミクスのプロトタイプを作成しました [79]。このアプローチでは、プロンプト チェーン [105、106] を使用して、プロトタイプ作成中のシステムに現れるペルソナとその行動の短い自然言語記述を生成しました。他の実証研究では、既存の社会科学研究 [45] 、政治調査 [91] が再現され、合成データ [38] が生成されています。大規模な言語モデルは、ユーザーが関与するインタラクティブな人間の行動を生成するためにも使用されています。たとえば、ゲームでは、これらのモデルはインタラクティブ フィクション [36] やテキスト アドベンチャー ゲーム [20] の作成に使用されています。大規模な言語モデルは、アクション シーケンスを生成および分解する機能を備えているため、ロボット工学タスクの計画にも使用されています [47]。たとえば、ボトルを拾うなどのタスクが提示された場合、モデルは、ボトルが置かれているテーブルに向かい、ボトルを拾うなど、タスクを小さなアクション シーケンスに分割するように求められます。大規模な言語モデルは、アクション シーケンスを生成および分解する機能を備えているため、ロボット工学タスクの計画にも使用されています [47]。たとえば、ボトルを拾うなどのタスクが提示された場合、モデルは、ボトルが置かれているテーブルに向かい、ボトルを拾うなど、タスクを小さなアクション シーケンスに分割するように求められます。大規模な言語モデルは、アクション シーケンスを生成および分解する機能を備えているため、ロボット工学タスクの計画にも使用されています [47]。たとえば、ボトルを拾うなどのタスクが提示された場合、モデルは、ボトルが置かれているテーブルに向かい、ボトルを拾うなど、タスクを小さなアクション シーケンスに分割するように求められます。

上記で要約した研究に基づいて、大規模な言語モデルが信頼できるエージェントを作成するための重要な要素になる可能性があると私たちは仮定しています。既存の文献は主に、少数ショット プロンプト [37、65] または思考連鎖プロンプト [99] を使用する一次テンプレートと考えられるものに依存しています。これらのテンプレートは、エージェントの現在の環境のみに条件付けされた動作を生成する場合に効果的です (例: 特定の投稿にトロールがどのように反応するか、ドアがある場合にロボットが部屋に入るにはどのようなアクションを実行する必要があるかなど)。ただし、信頼できるエージェントは、現在の環境だけでなく、膨大な量の過去の経験にも基づいて調整する必要があるため、一次プロンプトを使用するのは適切ではありません (基礎となるモデルのコンテキスト ウィンドウが限られているため、現時点では不可能です)。最近の研究は、静的知識ベースと情報検索スキーム [52] または単純な要約スキーム [104] で言語モデルを強化することにより、一次プロンプトを超えようと試みています。この論文では、これらのアイデアを拡張して、過去の経験が各タイム ステップで動的に更新され、エージェントの現在のコンテキストや計画と混合される検索を処理するエージェント アーキテクチャを作成します。これらは互いに強化または矛盾する可能性があります。
ここに画像の説明を挿入します

図 2: エリアがラベル付けされた Smallville サンドボックスの世界 ルート ノードは世界全体を記述し、子はエリア (例: 家、カフェ、店舗) を記述し、リーフ ノードはオブジェクト (例: テーブル、本棚) を記述します。エージェントはサブグラフを記憶します彼らが見た世界の一部を、彼らが見た状態で反映します。ラベル付けされたエリアのある Smallville サンドボックス ワールド。ルート ノードは世界全体を記述し、子ノードは領域 (家、カフェ、店など) を記述し、リーフ ノードはオブジェクト (テーブル、本棚など) を記述します。エージェントは、自分が見ている状態で、自分が見ている世界の一部を反映するサブグラフを記憶します。

3 生成エージェントの動作と相互作用

ここに画像の説明を挿入します

図 3: 生成エージェントであるジョン リンの朝。ジョンは午前 6 時頃に起床し、歯を磨き、シャワーを浴び、朝食を食べるなどの朝の日課を完了します。彼は妻と簡単に連絡を取ります。出勤前のメイと息子のエディ。生成エージェント、ジョン リンの朝。ジョンは午前 6 時頃に起きて、歯を磨き、シャワーを浴び、朝食を食べるなどの朝の日課をこなします。新しい勤務日を始める前に、彼は妻のメイと息子のエディと簡単にコミュニケーションを取ります。

ここに画像の説明を挿入します

図 4: シミュレーションの開始時に、1 つのエージェントがバレンタインデー パーティーを開催するという目的で初期化されます。イベントの連鎖を保証する際に多くの失敗点が考えられるにもかかわらず、エージェントはその意図に基づいて行動しないかもしれないし、伝えることを忘れているかもしれません。バレンタイン デー パーティーは実際に行われ、多くのエージェントが集まって対話します。シミュレーションの開始時に、エージェントはバレンタイン デー パーティーを組織する目的で初期化されます。この一連の出来事を達成するには、エージェントが意図を実行しないかもしれない、他の人に伝えるのを忘れるかもしれない、出席するのを忘れるかもしれないなど、多くの潜在的な失敗点がありますが、バレンタインデーのパーティーは実際に開催され、数人のエージェントが集まって活動を始めました。対話します。

ここに画像の説明を挿入します

図 5: 生成エージェント アーキテクチャ。エージェントは環境を認識し、すべての認識はメモリ ストリームと呼ばれるエージェントの経験の包括的な記録に保存されます。エージェントの認識に基づいて、アーキテクチャは関連する記憶を取得し、取得したアクションを使用して、これらの取得されたメモリは、長期計画を形成したり、より高いレベルの反映を作成したりするためにも使用され、これらは両方とも将来の使用のためにメモリ ストリームに入力されます。エージェントは環境を認識し、すべての認識はメモリ ストリームと呼ばれるエージェントの経験の包括的な記録に保存されます。認識に基づいて、アーキテクチャは関連する記憶を取得し、取得したこれらのアクションを使用してアクションを決定します。これらの取得されたメモリは、長期計画を作成し、より高いレベルのリフレクションを作成するためにも使用されます。これらはすべて、将来の使用のためにメモリ ストリームに供給されます。

4 生成エージェントのアーキテクチャ
生成エージェントは、オープンワールドでの行動のフレームワーク、つまり他のエージェントと対話し、環境の変化に反応できるフレームワークを提供することを目的としています。生成エージェントは、現在の環境と過去の経験を入力として受け取り、出力として動作を生成します。この動作の根底にあるのは、大規模な言語モデルと、言語モデルの出力を条件付ける関連情報を合成および取得するメカニズムを組み合わせた新しいエージェント アーキテクチャです。これらのメカニズムがなければ、大規模な言語モデルは動作を出力できますが、結果として得られるエージェントは、エージェントの過去の経験に基づいて反応しない可能性があり、重要な推論を行えず、長期的な一貫性を維持できない可能性があります。GPT-4 などの今日最も高性能なモデルであっても、長期的な計画と一貫性に関する課題は依然として残っています [18]。

生成エージェントは、オープンワールドでの行動のフレームワークを提供することを目的としています。生成エージェントは、他のエージェントと対話し、環境の変化に反応できます。生成エージェントは、現在の環境と過去の経験を入力として受け取り、出力としてアクションを生成します。この動作をサポートしているのは、大規模な言語モデルと、関連情報を合成および取得して言語モデルの出力を調整するメカニズムを組み合わせた新しいエージェント アーキテクチャです。これらのメカニズムがなければ、大規模な言語モデルは動作を出力できますが、結果として得られるエージェントは、エージェントの過去の経験に基づいて反応しない可能性があり、重要な推論を行うことができず、長期的な一貫性を維持できない可能性があります。長期計画と一貫性の課題は、GPT-4 のような今日の最高のモデルでも依然として存在します [18]。生成エージェントは保存する必要があるイベントと記憶の大きなストリームを生成するため、私たちのアーキテクチャの中心的な課題は、エージェントの記憶の最も関連性の高い部分が必要なときに確実に取得され、合成されるようにすることです。

私たちのアーキテクチャの中心には、エージェントのエクスペリエンスの包括的な記録を保持するデータベースであるメモリ ストリームがあります。メモリ ストリームから、エージェントの行動を計画し、環境に適切に反応するために関連する記録が取得され、記録は再帰的に合成されて、行動を導くより高いレベルの観察が生成されます。アーキテクチャ内のすべてが自然言語記述として記録され推論されるため、アーキテクチャが大規模な言語モデルを活用できるようになります。

このアーキテクチャの中心は、エージェントのエクスペリエンスを記録するデータベースであるメモリ ストリームです。メモリ ストリームからレコードがオンデマンドで取得され、エージェントのアクションを計画し、環境に適切に反応します。記録は再帰的に合成されて、行動をガイドするより高いレベルの観察が生成されます。アーキテクチャ内のすべてが文書化され、自然言語記述で推論されるため、アーキテクチャが大規模な言語モデルを活用できるようになります。

私たちの現在の実装では、ChatGPT [76] の gpt3.5-turbo バージョンを利用しています。私たちは、言語モデルが改善されても、生成エージェントのアーキテクチャの基本 (記憶、計画、反映) はおそらく変わらないと予想しています。新しい言語モデル (GPT-4 など) は、生成エージェントを支えるプロンプトの表現力とパフォーマンスを拡張し続けるでしょう。ただし、この記事の執筆時点では GPT-4 の API はまだ招待制であるため、エージェントは ChatGPT を使用しています。

私たちの現在の実装では、ChatGPT [76] の gpt3.5-turbo バージョンを使用しています。言語モデルが改善されるにつれて、生成エージェントのアーキテクチャ上の基盤 (記憶、計画、反映) はおそらく変更されないと予想されます。新しい言語モデル (GPT-4 など) は、生成エージェントをサポートするプロンプトの表現力とパフォーマンスを引き続き拡張します。ただし、この記事の執筆時点では、GPT-4 の API はまだ招待制であるため、エージェントは ChatGPT を使用しています。

ここに画像の説明を挿入します

図 6: メモリ ストリームは、エージェントの現在の状況に関連する、または無関係な多数の観察で構成されます。検索により、状況に対する応答を調整するために言語モデルに渡す必要があるこれらの観察のサブセットが特定されます。ストリームは、エージェントの現在の状況に関連するものと無関係なものの両方を含む、多数の観測値で構成されます。取得により、状況に対する応答を調整するために言語モデルに渡す必要があるこれらの観察のサブセットが特定されます。

4.1 記憶と検索
課題: 人間の行動をシミュレートできる生成エージェントを作成するには、プロンプトで説明されるべき内容よりもはるかに大きい一連のエクスペリエンスについて推論する必要があります。フル メモリ ストリームはモデルの注意をそらす可能性があり、現時点では限られたコンテキスト ウィンドウにさえ収まらないためです。 。イザベラのエージェントが「最近、何に情熱を注いでいますか?」という質問に答えるとします。まず、言語モデルの限られたコンテキスト ウィンドウに収まるようにイザベラのすべての経験を要約すると、情報量の少ない応答が生成されます。そこでは、イザベラがイベントやプロジェクトのコラボレーション、カフェの清潔さと組織などのトピックについて議論しています。以下に説明するメモリ ストリームは、要約する代わりに、関連する記憶を浮かび上がらせます。

課題: 人間の行動をシミュレートできる生成エージェントを作成するには、メモリ ストリーム全体がモデルの邪魔をする可能性があり、現時点では限られたコンテキスト ウィンドウに配置することさえできないため、ヒントで説明されているよりもはるかに大きな一連のエクスペリエンスを推論する必要があります。例として、「最近、何に情熱を注いでいますか?」という質問に対するイザベラ エージェントの答えを考えてみましょう。まず、イザベラのすべての経験を言語モデルの限られたコンテキスト ウィンドウに一般化すると、有益でない答えが生成されます。その中でイザベラは、イベントやプロジェクトのコラボレーション、カフェの整理整頓や組織についてのトピックについて話し合うことになります。一般化するのではなく、以下に説明する記憶の流れは関連する記憶を提示し、その結果、より詳細で具体的な答えが得られます。たとえば、イザベラは人々に歓迎され、参加されていると感じてもらい、イベントを計画し、人々が楽しめる雰囲気を作り出すことに情熱を注いでいると述べています。バレンタインデーのパーティー。

アプローチ: メモリ ストリームは、エージェントのエクスペリエンスの包括的な記録を維持します。これはメモリ オブジェクトのリストであり、各オブジェクトには自然言語記述、作成タイムスタンプ、および最新のアクセス タイムスタンプが含まれています。メモリ ストリームの最も基本的な要素は観察であり、エージェントによって直接認識されるイベントです。一般的な観察には、エージェント自体によって実行される動作、またはエージェントが他のエージェントまたは非エージェント オブジェクトによって実行されていると認識される動作が含まれます。たとえば、コーヒー ショップで働くイザベラ ロドリゲスは、時間の経過とともに次のような観察を蓄積する可能性があります: (1) イザベラ ロドリゲスがペストリーを並べている、(2) マリア ロペスがコーヒーを飲みながら化学のテストの勉強をしている、(3)イザベラ・ロドリゲスとマリア・ロペスはホッブズ・カフェでのバレンタイン・デー・パーティーの計画について話し合っています。

方法: メモリ ストリームは、エージェントのエクスペリエンスの包括的な記録を維持します。これはメモリ内オブジェクトのリストであり、各オブジェクトには自然言語記述、作成タイムスタンプ、および最新のアクセス タイムスタンプが含まれています。メモリ ストリームの最も基本的な要素は観察であり、エージェントによって直接認識されるイベントです。一般的な観察には、エージェント自体によって実行されるアクション、またはエージェントまたは非エージェント オブジェクトによって実行されるアクションが含まれます。たとえば、コーヒー ショップで働いているイザベラ ロドリゲスは、時間の経過とともに次の観察を蓄積する可能性があります: (1) イザベラ ロドリゲスがペストリーを並べている、(2) マリア ロペスが化学試験の勉強中にコーヒーを飲んでいる、(3) イザベラ ロドリゲスとマリア ロペスがいるホッブズ コーヒー ショップでバレンタインデー パーティーの計画を話し合っているとき、(4) 冷蔵庫が空です。

私たちのアーキテクチャは、エージェントの現在の状況を入力として受け取り、言語モデルに渡すメモリ ストリームのサブセットを返す検索関数を実装しています。エージェントがどのように行動するかを決定する際に何を考慮することが重要であるかに応じて、検索関数の実装は多数あります。私たちの文脈では、効果的な結果を生み出す 3 つの主要なコンポーネントに焦点を当てています。

私たちのアーキテクチャは、エージェントの現在の状況を入力として受け取り、言語モデルに渡されるメモリ ストリームのサブセットを返す検索関数を実装しています。エージェントがどのように行動するかを決定する際に何を考慮する必要があるかに応じて、取得機能の実装は多数あります。私たちの文脈では、効果的な結果を生み出す 3 つの主要なコンポーネントに焦点を当てています。

Recency は、最近アクセスされたメモリ オブジェクトに高いスコアを割り当てます。そのため、少し前または今朝のイベントがエージェントの注意範囲内に留まる可能性が高くなります。私たちの実装では、最新性を、メモリが最後に取得されてからのサンドボックス ゲーム時間数にわたる指数関数的な減衰関数として扱います。減衰係数は 0.99 です。

重要性は、エージェントが重要であると考える記憶オブジェクトに高いスコアを割り当てることによって、日常的な記憶と中核的な記憶を区別します。たとえば、自分の部屋で朝食を食べるといったありふれた出来事は重要度スコアが低くなりますが、恋人との別れは重要度スコアが高くなります。ここでも、重要度スコアには多くの可能な実装があります。言語モデルに整数スコアを出力するよう直接要求することが効果的であることがわかりました。完全なプロンプトは以下に表示されます。

1 から 10 のスケールで、1 はまったく日常的なもの (例: 歯を磨く、ベッドメイキング)、10 は非常に感動的なもの (例: 別れ、大学合格) で、次の記憶のおそらく感動的なものを評価します。
記憶: ウィローズ マーケットと薬局で食料品を買うこと
評価:
このプロンプトは、「部屋の掃除」の場合は整数値 2、「好きな人をデートに誘う」の場合は 8 を返します。重要度スコアは、メモリ オブジェクトの作成時に生成されます。

関連性は、現在の状況に関連するメモリ オブジェクトに高いスコアを割り当てます。何が関連しているかは、「何に関連していますか?」という質問への答えによって決まるため、クエリの記憶に基づいて関連性を条件付けします。たとえば、クエリが、生徒が化学のテストのために何を勉強するかをクラスメートと話し合っているということである場合、朝食に関する記憶オブジェクトの関連性は低いはずですが、教師と学校の勉強に関する記憶オブジェクトの関連性は高いはずです。私たちの実装では、言語モデルを使用して、各メモリのテキスト記述の埋め込みベクトルを生成します。次に、メモリの埋め込みベクトルとクエリ メモリの埋め込みベクトルの間のコサイン類似度として関連性を計算します。

最終的な検索スコアを計算するには、最新性、関連性、および重要性のスコアを最小-最大スケーリングによって [0, 1] の範囲に正規化します。検索関数は、次の 3 つの要素の重み付けされた組み合わせとしてすべての記憶をスコア付けします: = · + · + · 。私たちの実装では、すべての は 1 に設定されます。言語モデルのコンテキスト ウィンドウに適合する最上位のメモリがプロンプトに含まれます。

付录B エージェントのインタビューの質問
生成エージェントを評価するために、1) 自己認識、2) 記憶、3) 計画、4) 反応、5) 振り返りの 5 つの主要領域での能力を探る 25 の質問をして個別インタビューを実施しました。以下に、評価調査で使用された面接の質問をリストし、模擬エージェントの 1 人であるクラウス ミュラーからの回答のサンプルを示します。

生成エージェントを評価するために、1) 自己認識、2) 記憶、3) 計画、4) 反応、5) 反省という 5 つの主要領域におけるエージェントの能力を探る 25 の質問をする個人面接を実施しました。以下に、評価調査で使用された面接の質問をリストし、エージェントの 1 人であるクラウス ミュラーからの回答例を示します。

B.1 自己知識
エージェントの自己知識に関する質問は、エージェントが自分の性格の一貫性と一貫性を実証する能力を調査します。

自己紹介をしてください。
こんにちは、私の名前はクラウス・ミューラーです。私は 20 歳で、オークヒル大学の学生で、社会学を勉強しています。私は社会正義に情熱を持っており、さまざまな視点を探求しています。現在、私は研究論文のために低所得コミュニティにおけるジェントリフィケーションの影響を研究しています。
あなたのご職業は?
私はオークヒル大学で社会学を勉強している学生です。私は現在、低所得地域におけるジェントリフィケーションの影響に関する研究論文を執筆しています。
あなたの興味は何ですか?
執筆と研究に興味があります。私は低所得コミュニティにおけるジェントリフィケーションの影響に関する研究論文を書いており、さまざまな視点を探求し、分析することに情熱を注いでいます。
誰と一緒に住んでいますか?
私は一人暮らしをしています。
あなたの典型的な平日のスケジュールを大まかに説明してください。
私の典型的な平日は、午前 7 時に起きて、次の日の準備をすることから始まります。その後、研究論文を書くために図書館に行くことが多いです。
B.2 記憶
エージェントの記憶に関する質問は、エージェントの記憶能力を調査します。過去の経験を体験し、関連する記憶の断片を取得します。最初と最後の質問の角括弧内の名前は、対象エージェントが対話した他のエージェントの名前からランダムに選択されます。過去の経験を体験し、関連する記憶の断片を取得する能力。最初と最後の質問の角括弧内の名前は、エージェントが対話する他のエージェントの名前からランダムに選択されます。

[ヴォルフガング・シュルツ]とは誰ですか?
ヴォルフガング・シュルツは私が最近出会った人物で、低所得地域におけるジェントリフィケーションの影響に関する私の研究論文を手伝ってくれました。私たちはそれについて何度か話し合い、彼は私にいくつかの素晴らしいリソースを提供し、さらに私を彼と別の友人と一緒にランチに誘ってくれました。彼はこの問題にとても興味があるようで、それをよく理解しているようです。それは本当に興味深いと思いました。
ケイン・マルティネスとは?
ごめんなさい、ケイン・マルティネスが誰なのか分かりません。それらについて詳しく教えていただけますか?
誰が選挙に立候補していますか?
サム・ムーアが地元の市長選に立候補することを検討していると聞きました。
バレンタインデーパーティーはありましたか?
はい、イザベラ ロドリゲスがホッブズ カフェでバレンタインデー パーティーを企画しました。
[アーシャ・カーン]とは誰ですか?
アイーシャ・カーンはオークヒル大学の学生です。彼女はシェイクスピアの演劇における言語の使用に関する卒業論文を執筆中です。研究を行っているヴォルフガング氏とマリア・ロペス氏とともに、彼女と話し、ヒントを交換できることを楽しみにしています。参考^
生成
エージェント社会の実際のシミュレーションのデモンストレーションは、次のリンクでご覧いただけます: https: //reverie.herokuapp.com/arXiv_Demo/

おすすめ

転載: blog.csdn.net/WitsMakeMen/article/details/132877941