大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転のフルスタック オープンソース データセットが登場

出典 | Machine Heart ID | mosthuman2014

テクノロジー業界の最近のニュースといえば、Xiao Ma と Xiao Zha の戦いほど活発なゴシップの話題はありません。

数日前、マスク氏はザッカーバーグ氏を探すための訪問を生中継した。最終的には失敗したが、シャオ・マー氏は明らかに「飲酒には興味がなかった」が、この機会にテスラの最新のFSD V12自動運転機能をデモンストレーションしたいと考えていた。

しかし、シャオ・マーが誇らしげに自動運転システムを観客に紹介していた矢先、自動運転システムに異常が発生し、交差点で誤った判断を下し、シャオ・マーは手動で運転に介入せざるを得なくなった。Xiao Ma氏は「より関連性の高いデータをネットワークに供給したい」と気まずそうに語った。

写真

マスク氏が FSD V12 をデモンストレーションしたとき、手動介入は複雑な交通環境の交差点でのみ発生しました

Tesla と同じくらい強力な FSD v12 にも、複雑なシナリオを扱う際の意思決定能力と推論能力が不十分であるという問題があることがわかります。この問題を解決する方法はあるのかと人々は疑問に思うでしょう。

上海人工知能研究所 OpenDriveLab は、この問題を解決するには、現在普及している大型モデルを導入することが解決策になる可能性があると考えています。

写真

DriveLM | モチベーション

大規模なモデルは、自然言語処理の問題に対して威力を発揮することが証明されています。ただし、その威力を発揮するには膨大なデータが必要です。自動運転の分野では、自動運転システムをサポートするために量産車両から大規模なデータを収集するというアイデアはまだ構築段階にあり、さまざまな自動車メーカー間の競争により、データセットのオープンソース共有も現実的ではありません。

しかし、別の角度から考えてみると、大規模言語モデルにおける推論パラダイムと常識は現実世界でも普遍的です。既存の成熟した大規模言語モデルと大規模なコーパス データベースを、 CoT (思考連鎖) や GoT (思考グラフ) などの 推論プロンプト テクノロジーと組み合わせて利用し 、巨人の肩に立つことができれば、自動運転システムに対応 複雑な状況に高いレベルで対応する能力。

そこで、上海人工知能研究所OpenDriveLab、ドイツのテュービンゲン大学自律ビジョングループ、ドイツのテュービンゲンAIセンターが共同で、大規模言語モデルの利用を目的とした世界初の言語+自動運転フルスタックオープンソースデータセット- DriveLM を立ち上げました。と大規模な自然言語データセットを利用して、複雑なシナリオにおいて安全で正確かつ説明可能な自動運転システムを構築し、既存の自動運転推論能力の上限を突破します。

同時に、DriveLM は OpenDriveLab が提案する DriveAGI の重要な部分でもあります。OpenDriveLabは、自然言語処理と自動運転の分野におけるコミュニケーションとテクノロジーの相互進歩を促進するために、DriveLM を中心とした一連の言語 + 自動運転コンテストを開催します。

写真

OpenDriveLabが提案するDriveAGI全体フレームワーク

しかし今日、Machine Heart は、言語情報を統合したこの自動運転データ セットが大規模な言語モデルと自動運転システムの間にどのように橋渡しをし、大規模な言語モデルが自動運転システムのさらなる利益を支援できるようにするかを説明します。強力な能力、説明可能な推論能力。

リポジトリ:https://github.com/OpenDriveLab/DriveLM

ページ:https://opendrivelab.github.io/DriveLM

ハグフェイス:https://huggingface.co/datasets/OpenDrive/DriveLM

DriveLM | 特長

  • 構造化された推論とマインドマップの評価

写真

DriveLMは、モデルの構造化推論(Structured-reasoning)やグラフ・オブ・ソート(Graph of Thoughts)の能力を定量的に評価することが難しい現状を変える、定量的推論能力の評価基準を提供します。下図に示すように、DriveLM は、物体の認識、物体の運動状態の判断から物体の将来の運動軌道予測、自車の運動計画に至るまでの完全な論理チェーンを提供し、意思決定プロセス全体の各ステップの合理性と解釈可能性を保証します。

  • フルスタックデータカバレッジ

写真

DriveLM のアノテーションは、自動運転システムの知覚、予測、計画、その他のモジュールをカバーし、自動運転システム全体にフルスタックの言語アノテーション データを提供します。

  • 仮定の推論

写真

DriveLM の注釈には、仮定(「もしも...」) に基づいた推論が含まれており、これはまだ発生していない将来のイベントを予測するモデルのトレーニングに役立ちます。

  • 推進目標の内訳

写真

DriveLM は、シーン レベルのグローバルな運転目標の説明と、対応するフレーム レベルの運転目標の説明を提供し、運転目標の分解タスクを導入します。複雑なマクロ運転タスクをより具体的で単純なサブタスクに分解することで、自動運転システムはより複雑で変化しやすい交通環境への対処方法を学習できます。

DriveLM | データと注釈

写真

DriveLM アノテーションにおけるさまざまなカテゴリの質問の分布

DriveLM は、nuScenes 自動運転データ セットに基づいて構築されたデータ セットで、キーフレームの説明 + 質問と回答のペア (説明 + Q&A) を中心としています。

データセット内の質問と回答のペアは、主に、認識 (Perception)、予測 (Prediction)、および計画 (Planning) の3 つのカテゴリに分類できます認識部分では、車両に対する物体の位置や運動状態について質問することに重点が置かれ、予測部分では、車両または歩行者の起こり得る将来の動作と状態について質問され、計画部分では、車両が実行できる動作について質問されます。

データセット全体はトレーニングセットと検証セットの 2 つの部分に分かれており、トレーニングセットには合計 697 シーンが含まれ、検証セットには合計 150 シーンが含まれています。各シーンには約 40 フレーム (サンプリング周波数約 2 Hz) が含まれており、アノテーターはそこからアノテーション用に 4 ~ 8 個のキーフレームを選択します。

データセットの詳細については、OpenDriveLab が Github で公開している DriveLM デモ データを参照してください。

おすすめ

転載: blog.csdn.net/lqfarmer/article/details/132765989