Fudan NLP | 80 ページの大規模モデル エージェントの概要

出典: ハート・オブ・ザ・マシン

NLP グループに入る —> NLP コミュニケーション グループに参加する

AGIの鍵となるのはエージェントでしょうか?Fudan NLP チームは、LLM ベースのエージェントを包括的に調査しています。

最近、復丹大学自然言語処理チーム (FudanNLP) は、LLM ベースのエージェントに関するレビュー論文を発表しました。全文は 86 ページで、600 以上の参考文献があります。AIエージェントの歴史から始まり、LLMベースのエージェントの背景、構成、適用シナリオ、注目を集めるエージェント社会など、知的エージェントの現状を大きな言語モデルに基づいて包括的に整理した同時に、著者らは、関連分野の将来の開発動向にとって非常に価値のある、エージェントに関連する将来を見据えた未解決の問題についても議論しました。

4e5dadba97ca4318015af3911440d507.jpeg

  • 論文リンク: https://arxiv.org/pdf/2309.07864.pdf

  • LLM ベースのエージェントのペーパー リスト: https://github.com/WooooDyy/LLM-Agent-Paper-List

チームメンバーは、関連する各論文に「一文要約」も追加します, スター倉庫へようこそ。

研究の背景

研究者たちは長い間、人間のレベルと同等、あるいはそれを超える汎用人工知能 (AGI) を追求してきました。1950 年代にはすでに、アラン チューリングは「知性」の概念を人工実体に拡張し、有名なチューリング テストを提案しました。これらの人工知能エンティティは、エージェント (Agent*) と呼ばれることがよくあります。「エージェント」の概念は哲学に由来し、欲望、信念、意図、および行動を起こす能力を持つ存在を指します。人工知能の分野では、この用語には、自律性、反応性、積極性、社交性を特徴とする知的実体という新しい意味が与えられています

*エージェントという用語の中国語訳については統一された見解はなく、エージェント、アクター、エージェント、またはインテリジェントエージェントなどと訳している学者もいますが、この記事で登場する「エージェント」と「インテリジェントエージェント」はどちらもエージェントを指します。

それ以来、エージェントの設計は人工知能コミュニティの焦点になっています。ただし、これまでの研究は主に、象徴的な推論や特定のタスク (チェス、囲碁など) の習得など、エージェントの特定の能力を強化することに焦点を当てていました。これらの研究は、知識記憶、長期計画、効果的な一般化、効率的な対話など、モデルに固有の一般的な機能の開発を無視しながら、アルゴリズムの設計とトレーニング戦略に重点を置いています。モデルの固有の機能を強化することが、インテリジェント エージェントのさらなる開発を推進する重要な要素であることがわかりました。

大規模言語モデル (LLM) の出現は、インテリジェント エージェントのさらなる開発に希望をもたらします。NLP から AGI への開発ルートをコーパス、インターネット、知覚、具体化、社会的属性の 5 つのレベルに分けると、現在の大規模言語モデルはインターネット規模のテキスト入出力を備えた第 2 レベルに達しています。これに基づいて、LLM ベースのエージェントに知覚スペースとアクション スペースが与えられると、エージェントは第 3 レベルと第 4 レベルに到達します。さらに、複数のエージェントが対話および協力して、より複雑なタスクを解決したり、現実世界の社会的行動を反映したりすると、第 5 レベルであるエージェント社会に到達する可能性があります。

5f65686d946dcda6f3dd66c009308822.png

著者らは、人間も参加できる知的エージェントの調和のとれた社会を構想しています。『原神』のシーランタン祭りのシーンです。

エージェントの誕生

大規模なモデルでサポートされるインテリジェント エージェントはどのようなものになるでしょうか? 著者らは、ダーウィンの「適者生存」の法則に触発されて、大規模モデルに基づいたインテリジェント エージェントの一般的なフレームワークを提案しました。人が社会で生き延びたいのであれば、環境に適応することを学ばなければなりません。そのため、認知能力を持ち、外界の変化を認識して対応できる必要があります。同様に、知的エージェントのフレームワークも、制御端 (Brain)、認識端 (Perception)、および動作端 (Action) の 3 つの部分で構成されます。

  • コントロールエンド: 通常、LLM で構成され、インテリジェントエージェントの中核となります。記憶や知識を保存するだけでなく、情報処理や意思決定などの不可欠な機能も担います。インテリジェントエージェントの一般化と移転可能性を反映して、推論と計画のプロセスを提示し、未知のタスクにうまく対処できます。

  • 知覚エンド: インテリジェントエージェントの知覚空間を純粋なテキストからテキスト、視覚、聴覚などのマルチモーダルフィールドに拡張し、エージェントが周囲の環境からより効果的に情報を取得して利用できるようにします。

  • アクション面: 通常のテキスト出力に加えて、エージェントにはツールを具体化して使用する機能も与えられ、環境の変化によりよく適応したり、フィードバックを通じて環境と対話したり、さらには環境を形成したりすることができます。

b0ac98784d33e60aa5229d1756ec877a.png

LLM ベースのエージェントの概念フレームワークは、制御端 (Brain)、認識端 (Perception)、およびアクション端 (Action) の 3 つのコンポーネントで構成されます

著者らは、例を使用して LLM ベースのエージェントのワークフローを説明します。人間が雨が降るかどうか尋ねると、知覚側 (Perception) がその指示を LLM が理解できる表現に変換します。そして、制御端末(ブレイン)は、現在の天気やインターネット上の天気予報に基づいて推論と行動計画を開始します。最後に、アクションが応答して人間に傘を渡します。

上記のプロセスを繰り返すことにより、インテリジェント エージェントは継続的にフィードバックを取得し、環境と対話することができます。

コントローラー:ブレイン

インテリジェント エージェントの中核コンポーネントとして、著者はその機能を次の 5 つの側面から紹介します。

自然言語インタラクション:言語はコミュニケーションの媒体であり、豊富な情報が含まれています。LLM の強力な自然言語生成および理解機能のおかげで、インテリジェント エージェントは、目標を達成するために、自然言語を通じて複数回にわたり外界と対話できます。具体的には、次の 2 つの側面に分けることができます。

  • 高品質のテキスト生成: 広範な評価実験により、LLM が流暢で多様で斬新で制御可能なテキストを生成できることが示されています。個々の言語のパフォーマンスは低いものの、全体的には優れた多言語スキルが得られます。

  • 含意を理解する: 直観的に表現された内容に加えて、言語は話者の意図や好みなどの情報も伝えることがあります。これは、エージェントがより効率的に通信し、協力するのに役立つことを意味しており、大規模なモデルはすでにこの点での可能性を示しています。

知識:コーパスの大規模なバッチに基づいてトレーニングされた LLM は、大量の知識を保存する能力を備えています。言語知識に加えて、常識知識と専門スキル知識も LLM ベースのエージェントの重要な要素です。

LLM 自体には依然として知識の期限切れや幻覚などの問題がありますが、既存の研究の中には知識の編集や外部の知識ベースの呼び出しによってこれらの問題をある程度軽減できるものもあります。

メモリ:この記事のフレームワークでは、メモリ モジュール (メモリ) はエー​​ジェントの過去の観察、思考、および一連の行動を保存します。特定の記憶メカニズムを通じて、エージェントは以前の戦略を効果的に反映して適用することができ、過去の経験を利用して不慣れな環境に適応できるようになります。

記憶力を向上させるために一般的に使用される方法は 3 つあります。

  • バックボーン アーキテクチャの長さ制限を拡張する: トランスフォーマーの固有のシーケンス長制限を改善します。

  • 要約: 記憶を要約して、エージェントが記憶から重要な詳細を抽出する能力を強化します。

  • 圧縮: ベクトルまたは適切なデータ構造を使用してメモリを圧縮することにより、メモリの取得効率を向上させることができます。

さらに、メモリの取得方法も重要であり、適切なコンテンツを取得することによってのみ、エージェントは最も関連性の高い正確な情報にアクセスできます。

推論と計画:推論能力 (推論) は、インテリジェント エージェントが意思決定や分析などの複雑なタスクを実行するために重要です。LLM に特有の、思考連鎖 (CoT) に代表される一連のプロンプト手法です。計画は、大きな課題に直面したときによく使用される戦略です。これは、エージェントが思考を整理し、目標を設定し、それらの目標を達成するための手順を特定するのに役立ちます。特定の実装では、計画には次の 2 つのステップが含まれる場合があります。

  • 計画の策定: エージェントは、複雑なタスクをより管理しやすいサブタスクに分割します。例: 1 回の分解とその後の順番での実行、段階的な計画と実行、マルチパスの計画と最適なパスの選択など。専門知識が必要な一部のシナリオでは、エージェントを特定の分野の Planner モジュールと統合して機能を強化できます。

  • 計画の振り返り: 計画を立てた後、それを振り返り、その長所と短所を評価できます。この種の反映は一般に 3 つの側面から生じます: 内部フィードバック メカニズムの使用、人間との対話からのフィードバックの取得、環境からのフィードバックの取得。

転送可能性と一般化:世界の知識を持つ LLM は、インテリジェントなエージェントに強力な転送可能性と一般化機能を与えます。優れたエージェントは静的な知識ベースではなく、動的な学習機能も備えています。

  • 未知のタスクへの一般化: モデルのサイズとトレーニング データが増加するにつれて、LLM は未知のタスクを解決する驚くべき機能を開発しました。指示によって微調整された大規模モデルはゼロショット テストで良好なパフォーマンスを示し、多くのタスクでエキスパート モデルと同等の結果を達成しました。

  • コンテキスト内学習: 大規模なモデルは、コンテキスト内の少数の例から類推して学習できるだけでなく、この機能をテキストを超えたマルチモーダル シーンにも拡張することができ、エージェントが実際に使用される機会を増やすことができます。世界の可能性を。

  • 継続学習: 継続学習の主な課題は壊滅的な忘却です。つまり、モデルが新しいタスクを学習すると、過去のタスクの知識が簡単に失われます。特殊な領域のインテリジェント エージェントは、一般的な領域の知識を失わないようにする必要があります。

知覚の終わり: 知覚

人間は世界をマルチモーダルな方法で認識するため、研究者は LLM ベースのエージェントに対して同じ期待を抱いています。マルチモーダルな認識により、エージェントの作業環境に対する理解を深め、その汎用性を大幅に向上させることができます。

テキスト入力: LLM の最も基本的な機能なので、ここでは詳しく説明しません。

視覚入力: LLM 自体には視覚認識機能がなく、個別のテキスト コンテンツのみを理解できます。また、視覚入力には通常、オブジェクトのプロパティ、空間関係、シーンのレイアウトなど、世界に関する多くの情報が含まれています。一般的な方法は次のとおりです。

  • 視覚入力を対応するテキスト記述に変換 (画像キャプション): LLM が直接理解でき、高い解釈性を備えています。

  • 視覚情報のエンコードと表現: 知覚モジュールは、ビジュアル基本モデル + LLM のパラダイムで構成されており、モデルは、エンドツーエンドの方法でトレーニングできる位置合わせ操作を通じてさまざまなモダリティのコンテンツを理解できます。

聴覚入力:聴覚も人間の知覚の重要な部分です。LLM は優れたツール呼び出し機能を備えているため、エージェントが LLM を制御ハブとして使用し、既存のツール セットまたはエキスパート モデルをカスケード方式で呼び出して音声情報を認識できるというのが直感的なアイデアです。さらに、オーディオはスペクトログラムを通じて視覚的に表現することもできます。スペクトログラムは 2D 情報を表示するための平面画像として使用できるため、一部の視覚処理手法を音声フィールドに応用できます。

その他の入力:現実世界には、テキスト、視覚、聴覚以外にも多くのものがあります。著者らは、将来、インテリジェントエージェントが触覚、嗅覚、その他の器官などのより豊富な認識モジュールを備え、対象物のより豊かな属性を取得できるようになることを期待している。同時に、エージェントは周囲環境の温度、湿度、明るさを明確に感じ、より環境に配慮した行動をとることができます。

さらに、ライダー、GPS、慣性測定ユニットなどの成熟した認識モジュールを使用して、エージェントをより広範な環境全体の認識に導入することもできます。

アクション: アクション

脳が分析と決定を行った後、エージェントは環境に適応または変更するためのアクションも実行する必要があります。

テキスト出力: LLM の最も基本的な機能なので、ここでは詳しく説明しません。

ツールの使用: LLM は優れた知識と専門能力を備えていますが、特定の問題に直面すると、堅牢性の問題や幻覚などの一連の課題が発生する可能性があります。同時に、ツールはユーザーの能力の拡張として、専門性、事実性、解釈可能性などの側面で支援を提供できます。たとえば、計算機を使用して数学の問題を解決したり、検索エンジンを使用してリアルタイムの情報を検索したりできます。

さらに、ツールはインテリジェント エージェントの行動範囲を拡張することもできます。たとえば、音声生成や画像生成などのエキスパート モデルを呼び出すことで、マルチモーダル アクションを取得できます。したがって、エージェントをどのようにして優れたツールユーザーに成長させるか、つまりツールの効果的な使い方を学ぶことが非常に重要であり、将来性のある方向性となります。

現在、ツール学習の主な方法としては、デモンストレーションから学習する方法とフィードバックから学習する方法があります。さらに、メタ学習、コース学習などを使用して、さまざまなツールを使用する際の一般化機能をエージェントに提供することもできます。さらに一歩進んで、インテリジェント エージェントはツールを「自給自足」で作成する方法をさらに学習し、それによって自律性と独立性を高めることができます。

身体化されたアクション:身体化とは、環境との相互作用中に環境を理解し、変換し、自身の状態を更新するエージェントの能力を指します。身体化されたアクションは、仮想知能と物理的現実の間の架け橋と見なされます。

強化学習に基づく従来のエージェントにはサンプル効率、一般化、複雑な問題の推論に限界がありましたが、LLM ベースのエージェントは大規模モデルの豊富な固有の知識を導入し、身体化されたエージェントが人間と同様に物理環境を積極的に認識し、影響を与えることができます。タスクにおけるエージェントの自律性の程度、またはアクションの複雑さに応じて、次のアトミック アクションが存在する可能性があります。

  • 観察は、知的エージェントが環境内で自分自身の位置を特定し、物体やアイテムを認識し、その他の環境情報を取得するのに役立ちます。

  • 操作とは、特定の掴む、押す、その他の操作タスクを完了することです。

  • ナビゲーションでは、インテリジェント エージェントがタスクの目標に従って位置を変更し、環境情報に従ってステータスを更新する必要があります。

これらのアトミック アクションを組み合わせることで、エージェントはより複雑なタスクを完了できます。たとえば、「キッチンにあるスイカはボウルより大きいですか?」などの QA タスクを具体化します。この問題を解決するには、エージェントはキッチンに移動し、両方のサイズを観察した後、答えを導き出す必要があります。

物理世界のハードウェアのコストが高いことと、具現化されたデータセットの不足によって制限されているため、具現化されたアクションに関する現在の研究は依然として主にゲームプラットフォーム「Minecraft」などの仮想サンドボックス環境に焦点を当てています。したがって、著者らは、より現実に近いタスクパラダイムと評価基準を期待している一方で、関連するデータセットの効率的な構築についてさらなる探求も必要としています。

実際のエージェント: 多様なアプリケーション シナリオ

現在、LLM ベースのエージェントは、印象的な多様性と強力なパフォーマンスを実証しています。AutoGPT、MetaGPT、CAMEL、GPT Engineer などのおなじみのアプリケーション例が、前例のないスピードでブームになっています。

特定のアプリケーションを紹介する前に、著者は Agent in Practice の設計原則について説明します。

1. ユーザーが日常業務や反復労働から解放され、人間の仕事のプレッシャーを軽減し、タスク解決の効率を向上させるのに役立ちます。

2. ユーザーは明示的な低レベルの指示を発行する必要がなくなり、完全に独立して問題を分析、計画、解決できます。

3. ユーザーの手を解放した後は、脳を解放してください。最先端の科学分野でその可能性を最大限に発揮し、革新的で探求的な研究を完了してください。

これに基づいて、エージェントのアプリケーションには 3 つのパラダイムがあります。

bb486433b024a7b2b86f5946d4c1f7a0.png

LLM ベースのエージェントの 3 つのアプリケーション パラダイム: シングル エージェント、マルチ エージェント、人間とコンピューターの対話。

単一エージェントのシナリオ

人間の自然言語コマンドを受け入れ、日常業務を実行できるインテリジェント エージェントは現在ユーザーに好まれており、実用的価値が高くなります。著者らはまず、その多様なアプリケーション シナリオと、単一のインテリジェント エージェントのアプリケーション シナリオにおける対応する機能について詳しく説明しました。

この記事では、単一のインテリジェント エージェントのアプリケーションを次の 3 つのレベルに分けます。

f95657188​​4eac4e6feee19d28cfe6e72.png

シングル エージェント アプリケーションのシナリオには、タスク指向、イノベーション指向、ライフサイクル指向の 3 つのレベルがあります。

  • タスク指向の展開では、エージェントは人間のユーザーの基本的な日常タスクを支援します。基本的なコマンドの理解、タスクの分解、環境と対話する能力が必要です。具体的には、既存のタスク タイプに応じて、エージェントの実際のアプリケーションをシミュレートされたネットワーク環境とシミュレートされた生活シナリオに分けることができます。

  • イノベーション指向の展開では、エージェントは最先端の科学分野における自律的な調査の可能性を実証できます。固有の複雑さと専門分野からのトレーニング データの欠如がインテリジェント エージェントの構築を妨げていますが、化学、材料、コンピューターなどの分野ではすでに多くの研究が進歩しています。

  • ライフサイクル指向の展開では、エージェントはオープンワールドで継続的に探索、学習、新しいスキルを使用し、長期間生存することができます。このセクションでは、著者はゲーム「Minecraft」を例として取り上げます。ゲーム内のサバイバル チャレンジは現実世界の縮図と見なすことができるため、多くの研究者がエージェントの包括的な機能を開発およびテストするための独自のプラットフォームとしてゲームを使用してきました。

マルチエージェントのシナリオ

マービン・ミンスキーは 1986 年にすでに将来を見据えた予測を行っていました。『The Society of Mind』の中で、彼は知性の新しい理論を提案し、知性は多くのより小さな機能固有のエージェントの相互作用から生じると主張した。たとえば、一部のエージェントはパターンの識別を担当する一方、他のエージェントは意思決定や解決策の生成を担当する場合があります。

このアイデアは、分散型人工知能の台頭によって具体的に実装されました。マルチエージェント システムは、主な研究課題の 1 つとして、エージェントが問題を解決するためにどのように効果的に調整および協力できるかに主に焦点を当てています。この記事の著者は、複数のエージェント間の対話を次の 2 つの形式に分類します。

ae37a208e49491b6bd4a3c98ff47e025.png

マルチエージェント アプリケーション シナリオには、協力的な対話と対立的な対話という 2 つの形式の対話があります。

協調的インタラクション:実際のアプリケーションで最も広く導入されているタイプである協調的エージェント システムは、タスクの効率を効果的に向上させ、共同して意思決定を向上させることができます。具体的には、さまざまな協力形態に応じて、著者は協力的相互作用を無秩序な協力と秩序ある協力に細分化します。

  • すべてのエージェントが自由に自分の意見や意見を表現し、非連続的な方法で協力する場合、それは無秩序な協力と呼ばれます。

  • すべてのエージェントが、流れ作業の形で自分の意見を 1 つずつ表明するなど、特定のルールに従う場合、協力プロセス全体が秩序立って行われ、これを順序付けられた協力と呼びます。

敵対的な相互作用:インテリジェント エージェントは報復的な方法で相互作用します。競争、交渉、議論を通じて、エージェントは当初の誤った可能性のある信念を放棄し、自らの行動や推論プロセスについて有意義な反省を行い、最終的にはシステム全体の応答品質の向上につながります。

人間とコンピューターの対話シナリオ

ヒューマン エージェント インタラクションは、その名前が示すように、人間と協力してタスクを完了するインテリジェント エージェントです。エージェントの動的な学習能力はコミュニケーションによってサポートされる必要がある一方で、現在のエージェントシステムは解釈性がまだ不十分であり、安全性や合法性などに問題がある可能性があるため、人間の関与が必要です。そして監督。

論文の中で、著者らはヒューマンとエージェントのインタラクションを次の 2 つのモードに分けています。

6dac2a683486d1dbfe7034942021166d.png

人間とコンピューターの対話シナリオにおける 2 つのモード: 講師兼実行者モードと平等パートナーシップ モード。

  • インストラクター-実行者モデル: 人間がインストラクターとして機能し、指示とフィードバックを与え、エージェントが実行者として機能し、指示に従って徐々に調整および最適化します。このモデルは、教育、医療、ビジネスなどの分野で広く使用されています。

  • 対等パートナーシップ モデル:いくつかの研究では、エージェントが人間とのコミュニケーションにおいて共感を示したり、対等にタスクの実行に参加したりできることが観察されています。知能エージェントは日常生活への応用の可能性を示しており、将来的には人間社会に組み込まれることが期待されています。

エージェント社会:人格から社会性へ

研究者たちは長い間、「インタラクティブな人工社会」の構築を夢見てきましたが、サンドボックス ゲーム「ザ・シムズ」から「メタバース」に至るまで、人々の疑似社会の定義は、「環境 + 社会の中で生き、交流する個人」と要約できます。環境も

この記事の中で、著者は図を使用してエージェント社会の概念的枠組みを説明しています。

b0674c19786e20dc39c5bc71b4eba5ba.png

エージェント社会の概念的な枠組み。エージェントと環境という 2 つの主要な部分に分かれています。

このフレームワークでは次のことがわかります。

  1. 左側:個人レベルでは、エージェントは計画、推論、考察などの内面化されたさまざまな行動を示します。さらに、エージェントは、認知、感情、性格の側面にわたる本質的な性格特性を示します。

  2. 中間部:単一のエージェントは、他の個々のエージェントとグループを形成し、協力などのグループ行動を共同で示すことができます。

  3. 右側の部分:環境は、仮想サンドボックス環境または実際の物理世界の形式をとることができます。環境の要素には、人間と利用可能なさまざまなリソースが含まれます。単一のエージェントの場合、他のエージェントも環境の一部となります。

  4. 全体的なインタラクション:エージェントは、外部環境を感知してアクションを実行することで、インタラクション プロセス全体に積極的に参加します。

エージェントの社会的行動と性格

この記事では、社会におけるエージェントのパフォーマンスを、外部の行動と内部の性格の観点から検証しています。

社会的行動:社会的観点から見ると、行動は個人と集団の 2 つのレベルに分類できます。

  • 個々の行動は、エージェント自体の運用と開発の基礎を形成します。これには、知覚によって表される入力、アクションによって表される出力、およびエージェント自身の内面化された行動が含まれます。

  • 群衆の動作とは、2 つ以上のエージェントが自発的に対話するときに発生する動作を指します。これには、協力に代表されるポジティブな行動、対立に代表されるネガティブな行動、そして群れに従う、監視するなどの中立的な行動が含まれます。

性格:認知、感情、性格が含まれます。人間が社会化のプロセスを通じて徐々に独自の特性を発達させるのと同じように、エージェントも、グループや環境との相互作用を通じて徐々に人格を形成する、いわゆる「人間のような知性」を示します。

  • 認知能力: エージェントが知識を獲得し、理解するプロセスをカバーします。研究によると、LLM ベースのエージェントは、いくつかの点で人間と同様の熟慮と知性を示すことができます。

  • 心の知能指数: 喜び、怒り、悲しみ、喜びなどの主観的な感情や感情状態、そして同情や共感を示す能力が含まれます。

  • 性格 (性格描写): LLM の性格特性を理解および分析するために、研究者はビッグ 5 性格テストや MBTI テストなどの成熟した評価方法を使用して、性格の多様性と複雑さを調査してきました。

社会の動作環境をシミュレーションする

エージェント社会は、独立した個人だけで構成されるのではなく、彼らが相互作用する環境も含みます。環境は、エージェントがどのように認識、行動、対話するかに影響を与えます。同様に、エージェントも自らの行動と決定を通じて環境の状態を変化させます。個々のエージェントの場合、環境には他の自律エージェント、人間、および利用可能なリソースが含まれます。

ここで、著者は 3 種類の環境を調査します。

テキストベースの環境: LLM は主に入力および出力形式として言語に依存するため、テキストベースの環境はエージェントにとって最も自然なオペレーティング プラットフォームです。社会現象と相互作用は言葉を通じて説明され、テキスト環境は意味論的知識と背景知識を提供します。エージェントはそのようなテキストの世界に存在し、テキストのリソースに依存して認識し、推論し、行動します。

仮想サンドボックス環境:コンピュータ分野では、サンドボックスは制御され隔離された環境を指し、ソフトウェアのテストやウイルス分析によく使用されます。エージェント ソサエティの仮想サンドボックス環境は、社会的インタラクションと行動シミュレーションをシミュレートするためのプラットフォームとして機能し、その主な機能は次のとおりです。

  • 視覚化: シンプルな 2D グラフィカル インターフェイスから複雑な 3D モデリングを使用して世界を表示し、シミュレートされた社会のあらゆる側面を直感的な方法で描写できます。

  • スケーラビリティ: さまざまなシナリオ (Web、ゲームなど) を構築して展開してさまざまな実験を行うことができ、エージェントが探索できる広いスペースを提供します。

現実の物理的環境:物理的環境は、エージェントが観察および行動する実際のオブジェクトと空間で構成される具体的な環境です。この環境では、豊富な感覚入力 (視覚、聴覚、空間) が導入されます。仮想環境とは異なり、物理空間ではエージェントの動作に対してより多くの要求が課されます。つまり、エージェントは物理環境に適応でき、実行可能なモーション コントロールを生成する必要があります。

著者は物理環境の複雑さを説明する例を挙げています: 工場内でロボット アームを操作するインテリジェント エージェントを想像してください。ロボット アームを操作するときは、異なる材質の物体の損傷を避けるために力を正確に制御する必要があります。エージェントは物理的なワークスペースにいる必要があります。障害物を回避し、ロボット アームの移動軌道を最適化するために、中央を移動して移動経路を時間内に調整します。

これらの要件により、物理環境におけるエージェントの複雑さと課題が増大します。

シミュレーション、スタート!

この記事の中で著者らは、模擬社会はオープンで、永続的で、状況に応じて組織化されている必要があると考えています。開放性はエージェントがシミュレーションされた社会に自律的に出入りすることを可能にします;永続性は社会が時間の経過とともに発展する一貫した軌道を持つことを意味します;文脈性は特定の環境における主体の存在と動作を強調します;組織化はシミュレーション社会が物理的な世界を持つことを保証します-ルールや制限など。

模擬社会の重要性については、スタンフォード大学のジェネレーティブ エージェント タウンが誰にとっても鮮やかな例を提供しています - エージェント 社会は、グループ インテリジェンスの能力を探求するために使用できます。たとえば、エージェントが共同でバレンタインデー パーティーを企画したり、また、それを使用したりすることもできます。ソーシャルネットワークを模擬してコミュニケーション現象を観察するなど、社会科学研究を加速します。さらに、倫理的な意思決定シナリオをシミュレーションすることでエージェントの背後にある価値観を探ったり、政策が社会に与える影響をシミュレーションすることで意思決定を支援したりする研究も行われています。

さらに著者は、これらのシミュレーションには、有害な社会現象、固定観念と偏見、プライバシーとセキュリティの問題、過度の依存と中毒などを含むがこれらに限定されない特定のリスクも伴う可能性があると指摘しました。

前向きな未解決の質問

この論文の最後では、著者はいくつかの将来を見据えた未解決の疑問についても議論し、読者に次のことについて考えるためのインスピレーションを提供します。

インテリジェントエージェントと大規模言語モデルの研究はどのようにして相互に促進し、共に発展できるのでしょうか? 大規模モデルは、言語理解、意思決定、汎化能力において大きな可能性を示しており、エージェント構築プロセスにおいて重要な役割を果たしていますが、エージェントの進歩により、大規模モデルに対する要求も高まっています。

LLM ベースのエージェントはどのような課題や懸念をもたらすのでしょうか? インテリジェントエージェントを本当に実用化できるかどうかには、現実世界への危害を避けるための厳格なセキュリティ評価が必要です。著者は、違法虐待、失業のリスク、人間の幸福への影響など、さらに多くの潜在的な脅威を要約しています。

スケールアップはどのような機会と課題をもたらすのでしょうか? シミュレートされた社会では、個人の数を増やすことで、シミュレーションの信頼性と信頼性を大幅に向上させることができます。ただし、エージェントの数が増加するにつれて、通信およびメッセージ配布の問題は非常に複雑になり、情報の歪曲、誤解、または幻覚によってシミュレーション システム全体の効率が大幅に低下します。

LLM ベースのエージェントが AGI への適切なパスであるかどうかについて、インターネット上で議論があります。研究者の中には、GPT-4 に代表される大規模モデルは十分なコーパスでトレーニングされており、これに基づいて構築されたエージェントは AGI への扉を開く鍵となる可能性があると信じている人もいます。しかし、他の研究者は、自己回帰言語モデリングは反応するだけなので、本当の知能は示さないと考えています。World Model などのより完全なモデリング手法は、AGI につながる可能性があります。

群れ知能の進化。群知能は、多くの人々の意見を収集し、それらを意思決定に変換するプロセスです。しかし、エージェントの数を増やすだけで真の「知性」は生み出されるのだろうか?さらに、知的エージェントの社会が「集団思考」や個人の認知バイアスを克服できるようにするために、個々のエージェントをどのように調整すればよいでしょうか?

サービスとしてのエージェント (AaaS)。LLM ベースのエージェントは大規模モデル自体よりも複雑であり、中小企業や個人がローカルに構築するのはより困難であるため、クラウド ベンダーは、サービスの形式、つまりエージェントとしてのインテリジェント エージェントの実装を検討できます。 -サービス。他のクラウド サービスと同様、AaaS には、ユーザーに高い柔軟性とオンデマンドのセルフサービスを提供する可能性があります。


NLP グループに入る —> NLP コミュニケーション グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/133153947