古典文学の読書 -- OpenAnnotate3D (オープンボキャブラリーのマルチモーダル 3D データ用の自動アノテーション システム)

論文「OpenAnnotate3D: マルチモーダル 3D データ用のオープンボキャブラリー自動ラベル付けシステム」 (10 月 20 日、23 日) は Fudan とトロント大学から提供されました。

ビッグデータとビッグモデルの時代において、マルチモーダルデータの自動アノテーション機能は、自動運転や組み込み人工知能などの現実世界の人工知能駆動アプリケーションにとって非常に重要です。従来のクローズドセットのアノテーションとは異なり、オープン語彙のアノテーションは人間レベルの認知能力を達成するために不可欠です。しかし、マルチモーダル 3D データ用のオープンボキャブラリー自動アノテーション システムはほとんどありません。この記事では、ビジュアルおよび点群データの 2D マスク、3D マスク、および 3D 境界線注釈を自動的に生成できる、オープンソースのオープンボキャブラリー自動注釈システムである OpenAnnotate3D について紹介します。このシステムは、大規模言語モデル (LLM) の思考連鎖機能と視覚言語モデル (VLM) のクロスモーダル機能を統合します。公開および内部の実世界データセットに関する包括的な評価により、このシステムは手動アノテーションと比較してアノテーション効率が大幅に向上し、正確なオープンボキャブラリーの自動アノテーション結果が得られることがわかりました。

たとえば、図に示すように: 「地面」、「人」、「建物」などの既知のカテゴリにラベルを提供できるクローズドセット アノテーション システムと比較して、OpenAnnotate3D は「風船」や「バンパーカー」。3D 注釈。さらに、OpenAnnotate3D は、「人々にビニール袋のラベルを付ける」などの高度なラベル付けコマンドも理解します。

OpenAnnotate3Dのワークフローは図のとおりです。ユーザーのマーキング要求を受信した後、システムはまず LLM インタープリタと適切なプロンプト エンジニアリングを通じて要求を解釈します。インタプリタは、解釈されたテキストをキュー可能なビジュアル モデルの推論機能に適合させるために、キュー可能なビジュアル モジュールとの対話を数回行うことに注意してください。次に、高密度の 2D マスクが生成され、マルチモーダル空間アライメントを通じて 3D マスクがさらに計算されます。 2D マスクの不完全性を克服するために、時空間融合と補正を採用して 3D ラベルを改良します。

この図は、事前定義されたプロンプトに基づく解釈プロセスを示しています。事前定義されたプロンプト テンプレートを使用して、LLM に役割を割り当て、利用可能なツールを指定できます。さらに、プロンプト可能なビジュアル モジュールとの対話履歴が保存され、次のプロンプトに含まれます。

この図は、反復のためのテキスト解釈パイプラインを示しています。 LLM は、まずユーザーの目標プロンプトを解釈し、コア コンテンツを抽出してから、プロンプト表示可能なビジュアル モジュールに対して初期クエリを実行して、シーンの特徴を取得します。キュー可能なビジュアル モジュールからのシーン理解結果に基づいて、LLM インタプリタはビジュアル モジュールのキューを継続的に改良します。これにより、推論機能とセグメンテーションの精度が大幅に向上します。

私たちは、オープンボキャブラリーのユーザープロンプトを下流のプロンプト可能なビジュアルモジュールに適切に接続するために、以下のアルゴリズムで説明されている反復的なテキスト解釈戦略を考案します。最初に、ユーザーが指定したオリジナルのテキストがプロンプト表示可能なビジュアル モジュールに入力されます。ビジョン モジュールがテキストの説明と画像の間の一致を確立できない場合、LLM インタープリタにフィードバックが提供されます。プロンプト履歴は保存され、さらに次のプロンプトにマージされます。次に、LLM インタプリタは、LLM に組み込まれた言語理解および推論機能を使用して、プロンプト ビジョン モジュールがその指示を十分に理解するまで出力を調整します。

L 回の反復後もビジョン モジュールが有効な出力を生成できないと仮定すると、注釈システムは中断してユーザーにフィードバックを提供し、目的のターゲットを説明するためにテキスト入力を調整する必要があります。さらに、マスクされた注釈を生成するときに、システムはユーザーがこれらの注釈を評価することもできます。結果に満足できない場合、このフィードバックはインタプリタにも伝達され、システムはより良い注釈を目指して反復を続けることができます。

LLM ベースのインタプリタを使用すると、3 次元マルチモーダル データに自動的にラベルを付けるプロセスが構築されます。現在の既製のクロスモーダル視覚言語モデルは、CLIP [29] や SAM [21] などの 2D 画像に基づいています。

1) マルチモード空間アライメント。

OpenAnnotate3D は、RGB および 3D 点群データに対してオブジェクト レベルのラベル付けを実行するように設計されています。マルチモーダル 3D データを直接操作できるオープンな語彙モデルはほとんどありません。この目的を達成するために、著者らはマルチモーダル空間アライメントを実行して、2D VLM の推論機能をより有効に活用しています。

RGB および 3D 点群が空間的に位置合わせされている場合、正確な 2D マスクを 3D 空間に直接投影して、3D セグメンテーションの注釈として使用できます。 2D マスク アノテーションはビジョン モジュールから生成されるため、3D アノテーションを取得するには、RGB カメラ画像を 3D LIDAR 点群 (カメラと LIDAR のキャリブレーション パラメーターが指定されている場合) と空間的に位置合わせする必要があります。

適切に位置合わせされた RGB 画像と 3D 点群があれば、正確な点とピクセルの対応を確立できます。 2D マスクは、SAM (segment-anything) などの VLM を使用して実装されるヒンテーブル ビジョン モジュールを通じて取得されます。 2D 画像座標で注釈が付けられたセマンティック ターゲットに基づいて、同じ領域内の対応する点を同じセマンティック ターゲットとしてマークできます。これらの点群が 3D 世界座標に投影されると、さまざまなターゲットの 3D マスク アノテーションを直接取得できます。さらに、このシステムは、セグメント化および集約された 3D 点群への 3D 境界ボックスのフィッティングもサポートしており、これにより 3D 境界ボックスをマークできます。

2) 時空の融合と修正。

マルチフレーム ビデオ データを処理する場合、連続フレーム アノテーションを実現するために 2 つのオプションのソリューションが提供されます。最初の方法では、ユーザーはビデオ クリップ内の開始フレームと終了フレームを明示的に指定できます。システムが 2 つのフレームに自動的にラベルを付けると、補間アルゴリズムを使用してビデオ内の残りのフレームにラベルが付けられます。このアプローチは効率的ですが、中間フレームの注釈の精度が保証されない可能性があります。

したがって、このシステムはビデオのフレームごとの自動ラベル付けもサポートしています。ただし、問題は、VLM が特定のフレーム内の特定のオブジェクトに誤ったラベルを付けたり見逃したりする場合があり、特にオクルージョンなどの困難な状況では、3D アノテーションの品質が低下する可能性があることです。

この目的を達成するために、著者らは、フレーム全体の空間的および時間的情報を利用することが重要であるという観察に基づいて、融合および補正方法を提案する。時間を追加の軸として考慮すると、移動するターゲットは時間の経過とともに 3 次元のボリュームを生成します。ボリュームの断面は、時間内のターゲットの瞬間的な姿勢を表します。物理世界のほとんどのターゲットは運動学の法則に従っていることを考慮すると、幾何学的および空間的な一貫性を維持することで、ターゲットの軌道を評価および修正できます。この図は、時空間融合と修正によって誤ったラベルの結果がどのように修正されるかを示しています。

おすすめ

転載: blog.csdn.net/lovely_yoshino/article/details/134165998