言語で世界をモデル化しましょう! カリフォルニア大学バークレー校のマルチモーダルな世界モデルは言語を使用して未来を予測する

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして入力 —> [コンピューター ビジョンと論文投稿] Exchange グループ

転載元: Heart of the Machine | 編集者: Zhang Qian

現在、人間と知的体 (ロボットなど) との相互作用は非常に直接的であり、「青い積み木を取って」と言うと、それを持ってきてくれます。しかし、現実世界の多くの情報は、「レンチを使ってナットを締めることができる」、「牛乳は飲み終わった」など、それほど直接的ではありません。この情報は指示として直接使用することはできませんが、豊富な世界情報が含まれています。エージェントにとって、これらの言語が世界で何を意味するのかを理解するのは困難です。

f59ac6e730e71005d1e35b9cb6fe1406.gif

出典: Google Robotics チームの論文「Interactive Language: Talking to Robots in Real Time」。

カリフォルニア大学バークレー校でのダイナラングの研究の重要なアイデアは、言語を世界についてより適切な予測を立てるのに役立つツールとして考えることができるということです。たとえば、「牛乳が終わった」→冷蔵庫を開けると牛乳がない、「牛乳が終わった」→「冷蔵庫を開けると牛乳がない」など。 「レンチを使用してナットを締めることができます」 → 工具を使用するとナットが回転します。Dynalang は、言語モデル (LM) と世界モデル (WM) を 1 つのモデルに結合し、このパラダイムをマルチモーダルにしています。研究者らは、言語生成とアクションをエージェント アーキテクチャに統合することは、将来の研究にとって興味深い方向性であると考えています。

e4ff8125a4d3513edd4cc6d4197ccb39.gif

論文の概要

人工知能の長年の目標は、物理世界で人間と自然に対話できるインテリジェント エージェントを開発することです。現在の具体化されたエージェントは、「青いブロックに乗って」または「エレベーターを通り過ぎて右に曲がってください」などの単純な低レベルの指示に従うことができます。

しかし、自由にコミュニケーションできる対話型エージェントを実現するには、「今、ここ」以外で人々が言語を使用する方法を完全に理解する必要があります。これには、「左上隅のボタンはテレビを消すためのものです」などの知識の伝達が含まれます。 ;「牛乳が終わった」などの文脈情報を提供する;「リビングルームですでに吸ってしまった」など他の人に言うなどの相乗効果。私たちが文章で読んだり、他人から聞いたりするものの多くは、世界の仕組みや世界の現状など、世界に関する知識を伝えます。

エージェントが多様な言語を話せるようにするにはどうすればよいでしょうか? タスクを解決するために言語ベースのエージェントをトレーニングするアプローチの 1 つは強化学習 (RL) です。ただし、現在の言語ベースの RL アプローチは主に、「青いブロックを拾う」という目標の説明を入力として受け取り、一連のモーター制御を出力するなど、タスク固有の命令からアクションを生成することを学習します。

しかし、現実世界で自然言語が果たす多様な機能を考慮すると、言語を最適なアクションに直接マッピングすることは、困難な学習問題となります。「ボウルを片付けます」を例に挙げると、タスクが掃除の場合、エージェントは次の掃除ステップに進む必要がありますが、夕食のサービスの場合、エージェントはボウルを取りに行く必要があります。言語がタスクに関与していない場合、言語はエージェントがとるべき最適なアクションとの関連性が低いだけです。特にタスクの報酬のみを使用して言語を行動にマッピングすることは、多様な言語入力を使用してタスクを実行することを学習するための弱い学習シグナルです。

その代わりに、カリフォルニア大学バークレー校の研究者らは、エージェントが言語を使用するための統一的な方法は、将来の予測を支援することであると提案しています。前述の「ボウルをしまった」というステートメントは、エージェントが今後の観察をより正確に予測するのに役立ちます (つまり、戸棚を開けるアクションをとった場合、そこにボウルがあることがわかります)。

私たちが遭遇する言語の多くは、このように視覚体験に関連している可能性があります。「レンチを使用してナットを締めることができる」などの事前知識は、エージェントが環境の変化を予測するのに役立ちます。「外側に包まれる」などのステートメントは、エージェントが将来の観察を予測するのに役立ちます。このフレームワークは、次の標準的な指示も予測型として分類します。指示は、エージェントがどのように報酬を受け取るかを予測するのに役立ちます。次のトークンの予測によって言語モデルが世界に関する知識の内部表現を形成できるようにするのと同様に、将来の表現の予測は、エージェントが言語とその世界との関係を理解するための豊富な学習信号を提供するという仮説を立てます。

2a6f8183d1fddfb565c1f721f2f9dea2.png

これに基づいて、オンライン体験から言語と画像世界のモデルを学習し、このモデルを使用して行動方法を学習するエージェントである Dynalang を提案します。

Dynalang は、言語で世界をモデル化する学習 (予測目標を備えた教師あり学習) と、そのモデルに従って行動する学習 (タスク報酬を備えた強化学習) を分離します。この世界モデルは、観察モダリティとして視覚的およびテキスト入力を受け取り、それらを潜在空間に圧縮します。研究者らは、オンラインで収集された経験を使用して世界モデルをトレーニングし、エージェントが環境内でタスクを実行している間に将来の潜在的な表現を予測できるようにします。彼らは、世界モデルの潜在表現を入力として受け取ることによって、タスクの報酬を最大化するアクションを実行するようにポリシーをトレーニングします。ワールド モデリングはアクションから切り離されているため、Dynalang はアクションやタスクの報酬なしでユニモーダル データ (テキストのみまたはビデオのみのデータ) で事前トレーニングできます。

さらに、そのフレームワークは言語生成を統合することもできます。エージェントの認識はエージェントの言語モデル (つまり、将来のトークンの予測) に影響を与えることができ、エージェントがアクション空間に言語を出力することで環境を記述することが可能になります。

983abc277ad1f51f958fedb2cba040ee.png

論文リンク: https://arxiv.org/pdf/2308.01399

プロジェクトのホームページ: https://dynalang.github.io/

コードリンク: https://github.com/jlin816/dynalang

研究者らは、さまざまなタイプの言語コンテキストを持つ多様な環境で Dynalang を評価しました。マルチタスクの家庭用清掃環境において、Dynalang は、将来の観察、環境のダイナミクス、および修正についての口頭での合図を使用して、タスクをより効率的に実行することを学習します。Messenger ベンチマークでは、Dynalang は最も困難なゲーム ステージのゲーム マニュアルを読むことができ、タスク固有のアーキテクチャを上回ります。視覚言語ナビゲーションでは、研究者らは、Dynalang が視覚的および言語的複雑な環境において指示に従うことを学習できることを実証しました。

6ee07b3709a236b4a1cc11f093af8439.png

Dynalang は、言語を使用して将来の (テキスト + 画像) 観察と報酬を予測することを学習し、それによってタスク解決を支援します。ここで研究者らは、HomeGrid 環境での現実的なモデル予測結果を実証します。エージェントは、環境に関するビデオや言語による観察を受け取りながら、さまざまな部屋を探索します。過去のテキスト「ボトルはリビング ルームにあります」に基づいて、タイム ステップ 61 ~ 65 で、エージェントはリビング ルームの最後の隅にボトルがあると予測します。タスクを説明するテキスト「ボトルを拾う」に基づいて、エージェントはボトルを拾うことで報酬が得られると予測します。エージェントは、将来のテキストの観察を予測することもできます。タイム ステップ 30 で、文の前半が「お皿は入っています」と与えられ、戸棚の上のお皿を観察すると、モデルは次に可能性の高いトークンが「キッチン」であると予測します。

78bde18e679079a83667179f4188fb1c.png

研究者らは、視覚入力と多様な言語を備えたさまざまな環境を検討しました。HomeGrid は、指示と多様なプロンプトを備えたやりがいのあるビジュアル グリッドの世界です。Messenger は、複数の推論を必要とする人間が作成した何百ものゲーム プレイブックで構成されるシンボリック入力を備えたベンチマークです。ハビタットは、視覚言語ナビゲーションのためのシミュレートされた現実的な 3D ホーム環境であり、エージェントは数百のシーンでオブジェクトを見つける必要があります。LangRoom は部分的な可観測性を備えたシンプルなビジュアル グリッド ワールドであり、エージェントはアクションと言語の両方を生成する必要があります。

Dynalang の仕組みを詳しく説明する

言語を使用して世界を理解することは、世界モデリングのパラダイムに自然に適合します。この作品は、モデルベースの強化学習エージェントである DreamerV3 に基づいて構築されています。Dynalang は、エージェントが環境内でタスクを実行するときに収集された経験的データから継続的に学習します。

以下の図 (左) に示すように、各タイム ステップで、ワールド モデルはテキストと画像を潜在表現に圧縮します。この表現から、モデルは元の観測を再構築し、報酬を予測し、次のタイム ステップの表現を予測するようにトレーニングされます。世界モデルは、テキストで読み取られた内容に基づいて、世界で何が見られるかを直感的に学習します。

以下の図 (右) に示すように、Dynalang は、圧縮されたワールド モデル表現の上でポリシー ネットワークをトレーニングすることによってアクションを選択します。世界のモデルから想像上のシミュレーションでトレーニングされ、予測される報酬を最大化する行動を取ることを学習します。

61c5d74abb0b1480dbd1826b03828a77.png

テキストを文ごと、または段落ごとに消費する以前のマルチモーダル モデルとは異なり、研究者によって設計された Dynalang は、ビデオとテキストを統一されたシーケンスとしてモデル化し、一度に 1 つの画像フレームと 1 つのテキスト トークンを処理します。直観的には、これは人間が現実世界で入力を受け取る方法と似ています。人間は時間をかけて単一のマルチモーダルなストリームとして言語を聞くのです。すべてをシーケンスとしてモデル化すると、言語モデルと同様にテキスト データでモデルを事前トレーニングできるようになり、強化学習のパフォーマンスが向上します。

HomeGrid の言語プロンプト

研究者らは、環境内のエージェントを評価するために HomeGrid を導入しました。この環境では、エージェントはタスクの指示に加えて口頭での合図を受け取ります。

HomeGrid は、指示と多様なプロンプトを備えたやりがいのあるビジュアル グリッドの世界です。HomeGrid モデルのヒントは、エージェントが人間から何を学ぶか、またはテキストから取得する可能性があるもので、役立つがタスクを解決するためには必要ではない情報を提供します。

将来の観察: 「料理はキッチンにある」など、エージェントが将来観察する可能性のあるものを説明します。

f28244d8f469a00b8a3c8b3162dda0c9.gif

ダイナミクス:「ペダルを踏んでゴミ箱を開ける」など、環境の動的な変化を表します。

b6ec16b430e8d6073c11db3942acd5de.gif

HomeGrid 環境は、この方向でのさらなる研究を促進するためにコードとともにリリースされます。

エージェントは、テキストがどの観察に対応するかについての明示的な監督を受けませんが、Dynalang は、将来の予測目標を通じて、さまざまなタイプの言語を環境に関連付けることを学習します。Dynalang は、言語ベースの IMPALA や R2D2 よりも優れたパフォーマンスを発揮します。IMPALA や R2D2 は、さまざまな種類の言語に対応しており、命令の範囲を超えた言語タスクでは一般的にパフォーマンスが悪くなります。

43b485c2f514d8eeef899d78ef25b5a3.png

メッセンジャーのプレイブック

研究者らはメッセンジャー ゲームのコンテキストで評価を行い、エージェントがより長く複雑なテキストからどのように学習するかをテストしました。これには、テキストと視覚的観察に対する複数の推論が必要です。エージェントは、各タスクのダイナミクスを説明するテキストのプレイブックを推論し、それを環境内のエンティティの観察と組み合わせて、どのエンティティがメッセージを受信する必要があり、どのエンティティがメッセージを回避する必要があるかを判断する必要があります。Dynalang は、特に最も困難なステージ 3 において、IMPALA、R2D2、およびテキストと観察に対する推論に特化したアーキテクチャを使用するタスク固有の EMMA ベースラインよりも優れたパフォーマンスを発揮します。

dcc3d53c5a034884293118e8436ed613.png

7c6b473c31a7c7bf3238b1080653bed2.gif

生息地の指示は次のとおりです

研究者らはまた、Dynalang が現実的な視覚観察を処理し、ハビタットに続く指導を実行できることも示しました。エージェントは自然言語の指示に従って、現実的な住宅のスキャンで目的の場所に移動する必要があります。Dynalang では、指示に従って同じ予測フレームワークに統合でき、将来の報酬予測と見なすことができます。

d1a85a65c1ecb47ef732791c6d448414.png

e98ddbd79051c61baa6bb1b78f61d5e4.gif

LangRoom言語に基づいて生成

言語が、エージェントが見るものについての予測に影響を与える可能性があるのと同様に、エージェントが観察するものは、エージェントが言語について聞くことを期待するもの (例えば、見たものについての真実の発言) に影響を与える可能性があります。研究者らは、LangRoom のアクション空間に言語をエクスポートすることで、Dynalang が具体的な質問応答のための環境に関連付けられた言語を生成できることを示しました。LangRoom は、エージェントがモーションと言語を生成する必要がある部分的な可観測性を備えたシンプルなビジュアル メッシュ ワールドです。

9810f9934bf5afe4db26851e2547e1ca.png

f9f8ef3d9fe7ef9cd7b46718d468557e.gif

テキストの事前トレーニング

言語を使用したワールド モデリングはワールド モデルベースのアクション学習から切り離されているため、Dynalang はアクションや報酬のラベルなしでオフライン データを使用して事前トレーニングできます。この機能により、Dynalang は大規模なオフライン データセットをすべて単一のモデル アーキテクチャ内で活用できるようになります。研究者らは、トークンの埋め込みをゼロから学習するために、テキスト データのみを含むデータで Dynalang を事前トレーニングしました。一般的なテキスト データ (TinyStories、2M の短編小説) でモデルを事前トレーニングすると、Messenger の下流の強化学習タスクでのモデルのパフォーマンスが向上し、事前トレーニングされた T5 埋め込みを使用した結果を上回りました。

f17a2b8bf139c99d738ec7f76b6dd5a1.png

研究者らは、自分たちの研究は世界をナビゲートするための言語理解に焦点を当てているが、テキストのみの言語モデルのような世界モデルからテキストを生成するためにも使用できると述べている。研究者らは、潜在空間で事前トレーニングされた TinyStories モデルのサンプリングをシミュレートし、各タイム ステップでの表現からトークン観測をデコードしました。生成されたテキストの品質は依然として現在の言語モデルのレベルを下回っていますが、モデルによって生成されたテキストは驚くほど一貫しています。彼らは、言語生成とアクションを 1 つのエージェント アーキテクチャに統合することが、将来の研究の興味深い方向性であると信じています。

5da854e9de2833fe4f5b34fbe90c1ec0.png

 
  

クリックして入力 —> [コンピューター ビジョンと論文投稿] Exchange グループ

ICCV/CVPR 2023 ペーパーとコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てください1f18e08c980b0dcee990aec37e542d25.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/132158057