Apple の Fengshen ヘッドセット Vision Pro が誕生し、空間コンピューティングへの道を直接開きました。
次世代のヘッドセットで最高のプレイを実現できる AI アシスタント「Jarvis」を開発できたら、本当にエキサイティングです。
麻雀をするとき、どのカードを捨てるべきか直接聞いてください。Otter-E はトランプについてのアドバイスをくれました、そしてそれは将来ばかにならないでしょう。
空を飛んでいるときは、Otter-E にどこに止まりたいかを尋ねると、着陸方法を詳しく説明します。
サッカーをするときは、Otter-E にアドバイスを求めることもできます。
カワウソが水の中で遊んでいるのを見たら、Otter-E に五重奏曲を書いてもらうこともできます。
上記は、南洋理工大学とマイクロソフトの研究者によってARヘッドセット用に特別に訓練されたAIアシスタント「Otter-E」です。
実際、これは Otter モデルのもう 1 つの進化版です。
Otter は、MIMIC-IT でトレーニングされた OpenFlamingo ベースのマルチモーダル モデルであり、改善された命令追従とコンテキスト学習を実証します。
Otter は 2 つのコンシューマー グレードの RTX3090 GPU で実行できることは言及する価値があります。
さらに、MIMIC-IT は 7 つの画像およびビデオ データセットにまたがり、さまざまなシナリオをカバーし、8 つの言語をサポートします。
一般的なシーンの理解からニュアンスの発見、AR ヘッドセットの一人称視点の理解を強化することまで。
一部のネチズンは、人々がApple Vision Pro用に作成したAI ARアプリケーションを見ることに非常に興奮していると表明しました。
7 つのデータセットにわたって 8 つの言語をサポート
現在、AIの最も急速な成長分野は対話アシスタントに集中しており、AIはユーザーの意図を理解し、それを実行する強力な能力を持っています。
大規模言語モデル (LLM) の強力な一般化機能に加えて、命令チューニングも貢献しています。
命令チューニングには、さまざまな高品質命令に対する LLM の微調整が含まれます。命令チューニングを通じて、LLM はユーザーの意図をより深く理解できるようになります。
LLaVA のパフォーマンスは非常に強力ですが、LLaVA-Instruct-150K にはまだ 3 つの制限があります。
(1) ビジュアルの多様性が限られている。
(2) ビジュアルデータとして 1 枚の画像を使用します。
(3) 言語に依存するコンテキスト情報のみ:
これらの制限に対処するために、研究者らはマルチモーダル コンテキスト命令チューニング (MIMIC-IT) を導入しました。
MIMIC-ITの大きな特徴は次の3つです。
(1) 一般的なシーン、自己中心的な視点シーン、屋内の RGB-D 画像など、さまざまなデータセットの画像とビデオを含む、多様なビジュアル シーン。
(2)ビジュアルデータとしての複数の画像(または1つの動画)。
(3) マルチモーダル コンテキスト情報。複数のコマンドと応答のペアや複数の画像またはビデオなど、マルチモーダル形式で定式化されたコンテキスト情報によって特徴付けられます。
論文アドレス: https://arxiv.org/pdf/2306.05425.pdf
下図はMIMIC-ITの模式図です。
MIMIC-IT データセットには、280 万のマルチモーダルな命令と応答のペアが含まれており、知覚、推論、計画といった基本的な能力をカバーしています。
各指示にはマルチモーダルな対話コンテキストが伴うため、MIMIC-IT でトレーニングを受けた VLM は、対話型指示後に優れた習熟度を示し、ゼロショットの汎化を達成できます。
研究者らは、より多くの VLM が現実世界を理解できるようにサポートするために MIMIC-IT データセットを構築しました。
以下の図は、2 つのモデル データ形式の比較です: LLaVA-Instruct-150K と MIMIC-IT
(a) LLaVA-Instruct150K は、単一の画像と、対応する言語のみのコンテキスト情報 (黄色のボックス) で構成されます。
(b) MIMIC-IT は入力データに複数の画像またはビデオを収容し、マルチモーダルなコンテキスト情報をサポートします。つまり、画像/ビデオと言語入力の両方がコンテキスト情報とみなされます。
一方、研究者らは、多言語の高品質な命令と回答のペアを生成する自動パイプラインである Sythus を提案しました。
LLaVA によって提案されたフレームワークに基づいて、研究者らは ChatGPT を活用して、視覚的なコンテンツに基づいてコマンドと応答の応答を生成しました。
生成されるコマンドと応答のペアの品質を保証するために、研究者のデータ パイプラインには、システム情報、視覚的な注釈、および ChatGPT のプロンプトとしてコンテキスト内の例が組み込まれています。
コアセットの品質はその後のデータ収集プロセスに影響を与えるため、研究者らはコールドスタート戦略を採用しました。
コールドスタート段階では、研究者らはヒューリスティックを利用して、ChatGPT にシステム メッセージと視覚的な注釈を通じてコンテキスト内の例を収集するよう促すだけです。
このフェーズは、文脈内で満足のいく例が特定された場合にのみ終了します。
4 番目のステップでは、コマンドと応答のペアが取得されると、データ パイプラインがそれらを中国語 (zh)、日本語 (ja)、スペイン語 (es)、ドイツ語 (de)、フランス語 (fr)、韓国語 (ko)、およびアラビア語に拡張します。 (ar)。
サイサスの概要。研究者らはコールド スタート フェーズを使用して、特定のデータセット内のコマンドと応答のペアをクエリするためのコンテキスト内で最適なシステム情報と例を特定します。
その後、Sythus はステップ 1 から 4 を実行して、8 つの言語で高品質のコマンドと応答のペアを生成しました。
以下の図は、MIMIC-IT と他のマルチモーダル命令データセットの比較を示しています。
MIMICIT は次の特徴を備えています。
(1) 視覚言語命令の最大のデータセット。
(2)ビデオデータを含む第1の命令データセット。
(3) マルチモーダル コンテキスト シナリオをサポートします (データ形式については図 2 を参照)。
(4) 英語、中国語、スペイン語、日本語、フランス語、ドイツ語、韓国語、アラビア語を含む 8 つの言語がサポートされています。
MIMIC-IT のデータ ソースには、COCO、Spot-the-diff、ScanNetV2、VisualStorytting、DenseCaption/Activity caption、TVCaption、および Ego4D の 7 つのデータセットが含まれます。
このうち、lang.は言語を表し、vis.は視覚を表します。
以下の図は、マルチモーダル コンテキストにおける命令と応答のペアの統計を示しています。
(a) と (b) はコマンドと応答の動詞と名詞のルートのペアで、図の内側の円は出力応答のルート動詞を表し、外側の円は直接名詞を表します。
(c) コマンドと応答の統計。Ego4D コマンドの 25% は、分散をよりバランスよくするために予約されています。
上の写真は、さまざまなシナリオでのカワウソの反応の例を示しています。
MIMIC-IT データセットでトレーニングした後、Otter は、コンテキスト内の例から学習し、コンテキストの理解と推論を提供し、自己視覚的な AI アシスタントを提供できるようになりました。
カワウソが生まれる
研究者らは、MIMIC-IT データセットのさまざまなアプリケーションと、MIMIC-IT データセットでトレーニングされた視覚言語モデル (VLM) の潜在的な機能を実証します。
研究者らはまず、MIMIC-IT データセットでトレーニングされたコンテキスト命令調整モデルである Otter を紹介します。
次に研究者らは、MIMIC-IT データセットで Otter をトレーニングするさまざまな方法も検討し、Otter を効果的に使用できる多くのシナリオについて議論しました。
- 場面の理解と推論
MIMIC-IT データセットには、約 280 万のコンテキストに応じた命令と応答のペアが含まれており、さまざまなタスクを容易にするための一貫したテンプレートに構造化されています。
以下のテンプレートには、画像、ユーザー コマンド、モデルで生成された応答が含まれており、人間とアシスタントの両方の役割ラベルを利用して、ユーザーとアシスタントのシームレスな対話を可能にします。
LA タスクと SD タスクで実証されているように、MIMIC-IT データセットで Otter モデルをトレーニングすると、さまざまな機能を獲得できるようになります。
LA のタスクで訓練を受けたオッターは、優れたシーンの理解、推論、複数ターンの対話を示します。一方、SD タスクでは、日常のシーンの大まかな違いや微妙な違いを上手に検出できます。
示されているように、MIMIC-IT データセットでトレーニングした後の Otter の反応は、複数回の対話で理解して推論する能力を強調しています。
- 状況に応じた例で学習します
前述したように、文脈上のインスタンスで視覚言語を組織化するという概念に関して、研究者らは、LA-T2T タスクでトレーニングした後、Otter モデルが文脈間の指示に従う能力を実証しました。他のタスクの場合、入力データは次の形式で編成されます。
- 自己視覚的理解
MIMIC-IT データセットの注目すべき特徴は、IEP、E4D シーンからの一人称ビデオと連続画像の包括的なコレクションが含まれていることです。
IEP シナリオでは、コンテンツは、屋内レイアウトに従ってイベントを計画するようにモデルを誘導することを目的とした指示と応答を含む、屋内環境での理解と計画に重点を置いています。
一方、E4D シーンは、一人称拡張現実 (AR) ヘッドセット アシスタント アプリケーション専用にコマンドと応答を調整します。
このデータに基づいて、研究者らは、AR ヘッドセットで使用するために特別に設計された Otter-E と呼ばれる自己視覚アシスタントをトレーニングしました。
MIMIC-IT は、一人称視点でシーンを認識し、今後のタスクの戦略を策定し、AR ヘッドセット ユーザーに貴重な洞察と推奨事項を提供するモデルの能力を強化します。
したがって、Otter-E モデルは AR ヘッドセット用の特別かつ先見的な視覚言語モデルとなり、画期的な没入型体験への道を切り開きます。
実験による評価
以下の表では、研究者らは MMAGIBench フレームワークを使用して、視覚言語モデルの知覚能力と推論能力を広範囲に評価しました。
Otter は、知覚タスクと推論タスクの両方で最高の平均精度を達成することで、すべてのベースライン モデルを上回ります。
VQAv2 などの視覚言語モデルの現在の評価指標には、堅牢性の点で欠点があります。たとえば、VQAv2 は主に単一の単語またはフレーズの応答を評価しますが、多くのモデルは文出力を生成します。
このギャップを埋めるために、研究者らは、ChatGPT に各入力のラベル予測と真のラベルを比較するように依頼して、これらのモデルを評価しました。ChatGPT からの応答が、予測が対応するラベルと一致していることを示している場合、テスト サンプルは正しいと見なされます。
示されているように、Otter はビデオ理解においてベースライン モデルを上回っています。(b) 人間の評価の比較。オッターは優れた実用性と一貫性を実証しました。(c) 文脈学習評価における数ショット。Otter は、より優れた状況に応じたゼロショット学習者として、OpenFlamingo よりも優れています。
著者について
李波
Li Bo は南洋理工大学コンピューターサイエンス学部の博士課程 1 年生で、指導教官は Liu Ziwei です。彼のお気に入りの深層学習研究トピックには次のものがあります。
ベースモデル: Steady Diffusion、GPT。真にインテリジェントな AI の実用化が期待できます。
身体化された AI: インタラクションと探索を通じて、環境内の困難なタスクを解決する方法を学習する自律型エージェント。
これらはムーンショット プログラムの途方もない夢であり、リーは長期的に注力する予定です。彼の現在の最初の研究テーマは、コンピュータ ビジョンの新たな機能と現実世界のシナリオにおける基礎となるモデルに焦点を当てています。
張元漢(チャン・ユアンハン)
Zhang Yuanhan 氏は南洋理工大学の博士課程の学生で、指導教官も Liu Ziwei 氏です。彼の研究対象はコンピュータ ビジョンとディープ ラーニングです。特に、表現学習と伝達可能性に興味があります。
劉紫偉(リウ・ツィウェイ)
シンガポールの南洋理工大学助教授、Liu Ziwei 氏に南洋助教授の称号が授与されました。彼の研究対象には、コンピュータ ビジョン、機械学習、コンピュータ グラフィックスなどがあります。
参考文献:
https://www.reddit.com/r/MachineLearning/comments/1460dsr/otter_is_a_multimodal_model_development_on/
https://otter-ntu.github.io/
https://arxiv.org/pdf/2306.05425.pdf
バビットパークは協力を歓迎します!
中国語Twitter: https://twitter.com/8BTC_OFFICIAL
英語Twitter: https://twitter.com/btcinchina
Discordコミュニティ: https://discord.gg/defidao
電報チャンネル:https://t.me/Mute_8btc
電報コミュニティ: https://t.me/news_8btc