[無題] ICCV 2023 | CAPEAM: コンテキストを意識した計画と環境を意識した記憶メカニズムに基づいた身体化されたインテリジェンスの構築

記事リンク: https://arxiv.org/abs/2308.07241

2023 年には、大規模言語モデル (LLM) と AI エージェントの開発がブームとなり、マシン インテリジェンスの分野全体に新たな開発の機会がもたらされるでしょう。長い間、研究者の身体化知能 (身体化人工知能) に対する要件は、ソフトウェアとハ​​ードウェア (さまざまな形のロボットなど) を組み合わせたインテリジェント エージェントを作成し、実際のさまざまな物理環境でさまざまなタスクを実行できるようにすることでした。人工知能の進化プロセスを完了するためのタスク。LLM の強力な言語理解および推論能力に依存して、身体化されたインテリジェント ロボットの作業効率を大幅に向上させることができます。

この記事では、コンピュータビジョンのトップカンファレンスであるICCV 2023に採択された論文を紹介します。既存のロボットが環境内を移動したり、環境目標と対話したりする際に間違いを犯すことが多いという問題に向けて、コンテキストを意識したプランニングと環境を意識した記憶(Context-Aware Planning)を導入しました。環境認識メモリ) を具体化したインテリジェンス フレームワーク CAPEAM では、CAPEAM は、セマンティック コンテキスト (言語命令、インタラクティブ オブジェクト情報など) をロボットの計画シーケンスに組み込む一連のエージェントを設計します。インタラクティブ オブジェクトの空間レイアウトと状態の変化 (オブジェクトが移動した場所など) を利用して、その後のアクションを推測しますこの設計に基づいて、CAPEAM のエージェントは、標準のロボット インタラクション コマンド ベンチマークで SOTA パフォーマンスを達成できます。

01. はじめに

身体化された知能ロボットは、工業生産、特急物流、スマートホーム、高リスク環境での救助など、さまざまなシナリオでの応用が期待されており、作業効率をさらに向上させるために、研究者らは、次のようなロボットを作成できないか検討し始めています。人間の言語や命令を正確に理解することができ、自己経路計画と行動実行能力の両方を備えた具現化された知的ロボットですユーザーが指定したさまざまな特定のタスクを完了するには、ロボット エージェントはまずタスクの指示を分割し、タスク固有の関連オブジェクトとの対話を含む一連のアクションを計画する必要があります。ただし、問題は、単純なエージェントが、タスクに無関係なオブジェクトと対話するなど、誤ったアクションを計画する可能性があることですたとえば、ユーザーが「テーブルにリンゴのスライスを置く」というタスクを指定した場合、通常のエージェントはロボットを駆動してパンのスライスを拾い上げ、テーブルに置きます。この現象は、このエージェントがタスク、つまり現在の環境の指示と状況記憶を理解していないことによるものです。

この問題を解決するために、この記事の著者は、タスク計画プロセスを 2 つの異なる段階に分割する新しい CAPEAM 手法を提案しました。まず、タスクの指示が分解され、コンテキスト情報が構築されます (指示には、実行する必要があるオブジェクトが含まれます) 。これに続いて、コンテキスト記憶に基づいた詳細な行動計画が続きます上の図に示すように、CAPEAM はまずタスク指示内のコンテキスト オブジェクトを抽出し、次にこれらのオブジェクトを中心に考えられるさまざまなサブアクションの目標を組み合わせて、詳細なプランナー (詳細プランナー) に基づいて最終的なアクション シーケンスを取得します

さらに、著者は、インタラクティブ オブジェクトの状態変化も、タスクを正しく完了するために重要であると考えています。エージェントがターゲットの状態を時間内に追跡できない場合 (たとえば、オブジェクトが移動されたかどうか)、それはその後の誤ったやり取りにつながります例えば、上図の「リンゴとお皿をキャビネットに置く」というタスクにおいて、エージェントが最初にリンゴを移動させても、リンゴの新たな位置情報を記録していなければ、お皿を置くことは可能です。プレートを移動するときにリンゴが直接当たってしまい、ミッション失敗となりました。そこで著者らは、オブジェクトの状態に関する情報を保存するコンテキスト認識メモリを導入し、エージェントが長期にわたって適切な状態にあるオブジェクトと対話できるようにするアプローチを導入しましたオブジェクトの状態と外観を追跡することで、エージェントは正しいオブジェクトと対話し、適切なアクションを実行することを確認し、最終的にタスクを正常に完了できます。

02. この記事の方法

この記事で提案する CAPEAM フレームワークは主に 2 つの主要なモジュールで構成されています. 全体のフレームワークは下図に示されています. 著者はそれぞれ, コンテキスト認識型プランニングモジュールと環境認識型メモリモジュールを紹介します. 前者はタスク関連をコンテキストに応じてモデル化できます.後者は、ターゲット オブジェクトのステータスと環境情報をオブジェクト マスクと空間メモリ プールに保存することにより、より効率的なシーン ナビゲーションとオブジェクト インタラクションを実現します。

2.1 コンテキスト認識型計画モジュール

ユーザーが指定した自然言語の指示を受け取った後、エージェントは、指定されたタスクの要件 (ユーザーが興味を持っているターゲット オブジェクトを掴むなど) を迅速に理解して推測し、完全なアクション シーケンスを定式化する必要があります。この目的を達成するために、著者は、最初に指示を複数の「サブ目標」セットに分割し、次に各サブ目標を実行可能な「詳細なアクション シーケンス」に拡張するという、新しい計画ソリューションを提案しました。最終的なアクション シーケンスの合理性を確保するために、作成者はサブ目標を分割するときにエラー修正メカニズムを追加しましたたとえば、現在のタスクによって共有されるタスク関連オブジェクトのセットは、コンテキスト予測子 (Context Prediction) によって予測され、命令逆アセンブリから得られるコンテキスト情報と結合されてサブゴール セットが生成されます。次に、詳細プランナーを使用して、各サブ目標の終了アクションとインタラクション オブジェクトを開発します。

2.1.1 サブ目標プランナー

2.1.2 詳細プランナー

2.2 環境認識メモリモジュール

以下の図は環境認識メモリモジュールの構成詳細を示しています.エージェントはまず, 入力RGB画像から予測された深度画像とセマンティックセグメンテーション画像に基づいて意味空間マップ(Semantic Spatial Map)を構築します. 深度情報は探索に使用できます.周囲の環境をより包括的に把握し、障害物領域、物体の位置、カテゴリなどのステータスを表示します。

一部のタスクでは、ロボットが複数の異なるタイム ステップで同じオブジェクトと対話する必要がある場合があり、その間、オブジェクトの視覚的な外観がさまざまな理由 (遮蔽など) により変化する可能性があるため、著者はオブジェクトの遡及的認識操作を設計しました(遡及的オブジェクト認識) を使用してオブジェクト マスクを各瞬間に更新し、複数のインタラクションがスムーズに進行するようにします。この操作と連携して動作するのがオブジェクト再配置追跡操作です。これは、移動された各ターゲットの座標を動的に更新します。これにより、エージェントが同じターゲットに対して繰り返しサブ目標計画を作成することがなくなりますエージェントが周囲環境のグローバル スキャンを実行する回数を減らすために、作成者はオブジェクト ロケーション キャッシュを使用して、状態が変化する各オブジェクトの空間情報をキャッシュし、エージェントが各ターゲットの実際の位置を記憶できるようにします。より効率的なナビゲーションとインタラクションを可能にします。

03. 実験結果

この記事の実験は非常に挑戦的な対話型命令ベンチマーク ALFRED [2] 上で行われました. ALFRED は 3 つの部分: トレーニング セット, 検証セット, テスト セットに分かれています. この手法の一般化能力を評価するために, 著者は検証セットとテストセット このセットはさらに、可視環境 (見える) と不可視環境 (見えない) の 2 つの部分に分かれますモデルの評価指標は、ALFRED の標準評価プロトコルに従います。主な指標は成功率 (SR で表され、主にモデルによって完了したタスクの割合を測定します) であり、もう 1 つの指標は目標条件成功率 (GC で表され、目標条件を満たす割合を測定するために使用されます) です。

筆者はまず、本稿で提案する CAPEAM 手法と既存の SOTA 手法を比較し、その比較結果を下表に示しますが、公正な比較を行うために、意味空間表現と奥行き推定も構築するいくつかの手法を選択しました。それらの中には、高度なタスク命令 (✗ Low Inst.) を使用し、環境とアクション テンプレート (✓ Tem. Act.) の事前情報を使用してアクション シーケンスを生成するものもあります。

上の表からわかるように、未確認テストにおける CAPEAM 手法の成功率は他のすべての比較手法よりも優れており、この論文の手法が新しい環境への適応力が高いことがわかります実際のテストでは、CAPEAM の性能は Prompter 法 [3] に比べてわずかに劣っていますが、これは、Prompter 法に、より正確な空間知覚モデルを追加して、各ターゲットの姿勢を正確に推定するためであると著者は考えています。これにより、可視シーンのトレーニングにおけるモデルのパフォーマンスが向上しますただし、この現象は、この記事の方法が目に見えるテスト環境と目に見えないテスト環境の間のパフォーマンスの差が小さいことも示しており、この記事の方法が目に見えない環境にもよりよく一般化できることを示しています。

04. 概要

この論文は、新しい具体化されたインテリジェント エージェント フレームワーク CAPEAMを提案します。これは、言語タスクの指示に含まれるコンテキスト オブジェクトをアクション プランニング操作に組み込み、コンテキスト認識型プランニング モジュールと環境認識型メモリ モジュールをセットアップし、動的更新で主要なターゲット オブジェクトを実行します。外観、空間的位置、その他の情報。これらの操作を通じて、CAPEAM は不必要な空間検索を効果的に回避し、ロボットの全体的なナビゲーションとインタラクション効果を向上させる粗いから細かいサブゴール アクション シーケンス生成メカニズムを設計します著者は、一連の実験を通じて、CAPEAM 手法がさまざまな環境における身体化インテリジェント エージェントの迅速な適応性を効果的に改善できることを示しており、これは現在の身体化インテリジェンス分野における研究のホットスポットとなるはずです。

参考

[1] アレクサンダー・カトロンパスとヴァンゲリス・メツィス。セルフアテンションとステートフルトレーニングにより lstm モデルを強化します。IntelliSys、2022 年。

[2] モヒト・シュリダール、ジェシー・トマソン、ダニエル・ゴードン、ヨナタン・ビスク、ウィンソン・ハン、ルーズベ・モッタギ、ルーク・ゼトルモイヤー、ディーター・フォックス。Alfred: 日常業務の根拠に基づいた指示を解釈するためのベンチマーク。CVPR、2020年。


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

さらに詳しく紹介 >>中国の世界的な AI エリートが集まる学習と成長のコミュニティ TechBeat

おすすめ

転載: blog.csdn.net/hanseywho/article/details/133385013