オフライン 4D 動的要素自動アノテーション アルゴリズムの概要

1. 3DAL

1. 論文概要

なぜなら、この論文の出発点は、オフラインの自動アノテーション アルゴリズムを作成することだからです。そのため、リアルタイム性や演算能力の制約が少なく、モデルを大規模化でき、より多くの情報を統合することが可能(オフラインでは時系列情報に因果関係がないため、前後のフレームデータを両方利用可能) 。個人的には、全体的な考え方は Coarse-to-Fine (粗いものから細かいものへ) の考え方に基づく 2 段階のターゲット検出アルゴリズムに似ていると感じます。

2. アルゴリズムフレームワーク

最初のステップ: 点群シーケンスを入力し、オフライン ターゲット検出アルゴリズム (MVF++) を通じて各フレームの検出結果を取得し、ターゲット追跡 (カルマン フィルター) を通じて各ターゲットの全体の軌跡シーケンスを取得します。このステップで得られる検出枠は比較的粗いものです。

ステップ2: 対象検出枠の軌跡列と元の点群列が既知であり、それらをすべてワールド座標系に変換すると同時に、点列(検出枠内の点)とフレーム列を抽出します。各オブジェクトの。ここで点列を抽出する際には、点抽出範囲を少し広げます(つまり、検出枠が粗くて近くの点群が失われないように枠を少し大きくします)。このようにして、オブジェクトのシーケンス ポイントとシーケンス ボックスを取得し、後続のボックスの調整に使用します。

ステップ 3: マルチフレーム点群とオブジェクトのフレームがワールド座標系に転送された後、静的オブジェクト点群はより高密度で完全になりますが、動的オブジェクト点群は移動によりスミアを形成します。同時に、静止したオブジェクトの場合は、揺れを防ぐために、シーケンス内で 1 つのフレームのみを生成したいと考えています。したがって、論文では動的分離と静的分離の方法が使用されて精製されます。物体の連続軌跡が 7 フレームを超える場合は以下の処理を行い、7 フレーム未満の場合は検出結果をそのまま最終的なアノテーション結果とします。これを 2 つのヒューリスティックな特徴 (ボックスの中心の分散と、ボックス シーケンス内の開始位置と終了位置の偏差) に基づいて線形分類器に入力し、それが静止物体であるか移動物体であるかを判定します。

ステップ 4: それぞれ動的および静的なリファインメントを行い、オブジェクト シーケンス ポイントとボックスの特徴に基づいてボックスのサイズと位置をリファインします。詳細は以下をご覧ください。

3. 1 段階および 2 段階のネットワーク モデル

MVF++ モデルの改善

a. 各ポイントがフレーム内にあるかどうかを判断するためのセマンティック セグメンテーションのブランチを追加しました。点特徴の識別能力が強化されます。

b. アンカーフリーの方法を使用する

c. 元の MVF++ モデルのサイズを増やし、通常の畳み込みブロックを ResNet 残差ブロックに置き換えます。

モデル全体で点特徴を抽出した後、オブジェクトを検出するために pointpillar に似た構造が追加されます。

ここでのアンチボクセル化操作は、ボクセルの特性をその内部のポイントに直接割り当てることです。

静的オブジェクトの自動ラベル付け

モデルは、異なるフレームからのオブジェクトの点群をマージします。このとき、マージはワールド座標系で完了します。最大のスコアを持つボックス パラメーターが初期化ボックス パラメーターとして選択され、点群はボックス座標系 (ボックスの中心が原点です。車の前部が正の x 方向にあります)。これは、リファイン パラメーターを学習するのに役立ちます。次に、pointnet を使用してポイントのセマンティック セグメンテーションを実行し、前景ポイントを決定し、背景ポイントをフィルタリングして、ボックスのリファイン パラメータを予測します。このリファインされたボックスは、車両のエゴ パラメータに応じて他の異なるフレームに変換できます。

 動的オブジェクトの自動ラベル付け

一連のボックスとボックス内の点の場合、モデルはスライディング ウィンドウの形式で実行され、現在のボックスの調整パラメーターを出力します。

点群ブランチについては、現在のフレーム オブジェクトのポイントと前後の N (ハイパーパラメーター、論文では 2) フレームのポイントを抽出し、各フレームで 1024 個のポイントをサンプリングし、それらに時間次元エンコーディングを追加します。 is n * (c + 1) が渡される場合、これらを現在のボックスの座標系に変換し、前景点分類のためにポイントネットに送信してから、C 次元の点エンコード機能を取得するためにエンコードする必要があります。

ボックス分岐では、より長い軌跡列を形成するために、点群よりも多くのフレーム数の前後の複数フレームのボックス情報が抽出されます。次に、それらを現在のボックス座標系に転送し、pointnet エンコーディングを使用して C 次元のボックス エンコーディング特徴を取得します。

ポイント エンコーディング フィーチャとボックス エンコーディング フィーチャを連結し、現在のボックスの改良を実行します。

2.オート4D

 1. 論文概要

この論文もCoarse-to-Fine(粗いものから細かいものへ)の考え方です。ただし、前の記事とは異なり、第 2 段階では動的オブジェクトと静的オブジェクトを分離して調整しません。この記事では、動きの変わらない部分(ボックスのサイズ)と動きの変化する部分(ボックスの位置と向きの角度)を2段階で予測します。

2. アルゴリズムフレームワーク

最初のステップ: 既製の検出器とトラッカーを使用して、各オブジェクトの軌跡シーケンスを取得します。各オブジェクトのシーケンスを個別に処理します。

ステップ 2: オブジェクト サイズ調整分岐、ボックスを 1.1 倍に拡大し、内部の点を抽出し、すべてのフレームのオブジェクト点をボックス座標系に転送し、その中心位置と方向を揃えます。点群を BEV に投影し、2D 特徴抽出を実行して C*H*W 特徴を生成します。受容野は十分に大きいため、ボックスの中心点に対応する特徴を直接抽出し、双一次補間を実装できます。この機能は、MLP を通じてサイズを調整したものです。軌道全体にわたる高密度の予測を活用することで、オブジェクト サイズ ブランチはより正確な表現を生成できます。

ステップ 3: オブジェクト サイズ ブランチによって予測された新しい調整されたサイズは、軌道上のすべての検出フレームのサイズを更新するために使用されます。検出フレームのサイズの更新には 2 つのタイプがあります。1 つは長さと幅を更新すること、もう 1 つは長さと幅を更新することです。中心点は変わりません。もう 1 つは、角を揃えて長さと幅を更新することです。本稿では後者を選択する。

ステップ 4: モーション パスが分岐および洗練され、ワー​​ルド座標系でシーケンス点群が抽出され、タイム コーディングが追加されます。点群の高さと時間の次元が特徴チャネルと結合されて 3 次元のボクセル グリッドが生成され、これが CNN によってエンコードされて C*H*W 特徴が取得されます。同時に、動きの特徴が抽出され、現在のフレームの xy と角度が前のフレームから減算されて、動きのオフセットが取得されます。

 その後、処理のために UNetconv1d ネットワークに供給されます。各フレームの中心点のボクセル特徴(双一次補間)+動き特徴をMLPに送信し、中心点のxy変化倍率と角度オフセットを取得します。

3. アブレーション実験

ボックスの補正サイズを取得すると、論文に記載されているように、中心点またはコーナー点のオフセットに基づいて補正されます。最初に点群に表示されるのは、多くの場合、車両に最も近いコーナー点付近の点群であるため、モデルの最初の予測フレームでは、車両に最も近いコーナー点が最も正確であるため、次を使用します。このコーナーポイントをベンチマークとして、ボックスの長さと幅を修正します。定量的データによると、コーナー ポイントのインジケーターはセンター ポイントより 6% 高いことが示されています。

スケール補正ブランチの追加により、静的オブジェクトのインデックスがさらに向上します。

モーション パス修正ブランチと組み合わせることで、動的オブジェクトのインデックスがさらに向上します。

3、一度検出したら失われない

1. 論文概要

古典的な 3 段階、検出 + 追跡 + 洗練。前の 2 つの記事は、第 3 ステージに焦点を当てています。この文書では、追跡段階にも重点を置いています。双方向追跡ベースのモジュールと追跡中心の学習モジュールは良好な結果を達成します。

2. アルゴリズムフレームワーク

最初のステップ: FSD を使用して特徴を抽出します。この論文ではいくつかの改良が加えられています。従来のマルチフレーム接続に加えて、将来のフレームからの情報も組み込まれています。同時に、計算​​能力のオーバーヘッドを増加させることなく、より長い時間の情報を利用するために、フレームスキップ戦略が採用されます。過学習を防ぐために、選択したフレームの半分を 20% の確率で削除します。

ステップ 2: 双方向のマルチターゲット追跡。まず前方追跡に不滅トラッカーを使用します 彼のアイデアは次のとおりです: 実空間では物体が何もない空間から消えることはないので、軌道がタイム ステップの結果と一致しない場合は、運動モデル (カルマン フィルターに基づく) を渡しますモデル) を使用して擬似ボックスを生成すると、オブジェクトが範囲外に出るかシーケンスが終了しない限り、オブジェクトの軌跡は常にそこにあります。これによりオクルージョンの問題は効果的に解決できますが、多くの誤検知も発生します。軌道中心の学習は以下で最適化されます。オブジェクトの時系列が 100 フレームを超える場合はシーケンスの最後まで直接延長され、時系列が 100 フレーム未満の場合は 20 フレームだけ後方に延長されます。逆トラッキング。最後のフレームから最初のフレームまでバックトラッキングして動きの状態を推定し、その後、動きの状態に基づいて前方に拡張します。

ステップ 3: 軌道中心の学習。

MIMO、複数フレーム入力および複数フレーム出力。MISO と比較して、これによりサイズのジャンプが防止されます。同時に、動的データと静的データが分類されていないため、これによりトレーニング データの多様性が減り、一般化が妨げられると論文では考えられています。まず、すべてのトラック上のすべてのボックスが 3 次元で 2m 拡張され、次に点群が各タイム ステップでトリミングされ (拡張されたボックスごとに 1024 個の点のみが選択されます)、それらは図の最初のフレームの姿勢に変換されます。トラックし、ネットワーク入力として接続されます。異なるポイントとタイム ステップを区別するために、各ポイントにタイムスタンプ エンコーディングを追加します。

全長シーケンスが入力として使用されるため、範囲はプラスまたはマイナス 256m で、その後ボクセル化され、スパース unet ネットワークを使用してボクセル特徴を抽出します。そして、補間を通じてボクセルの特徴を、ボクセルの特徴に含まれる点の特徴にマッピングし直します。後続のターゲット特徴抽出に使用されます。

ボックス (0.5m) を使用してポイント フィーチャをクリップし、それらを拡張してオブジェクトの整合性を確保します。次に、pointnet を使用してボックス内の点の特徴を抽出します。トリミング時には、より多くの情報を取得できるように、他のタイムスタンプ ポイントも含まれます。また、タイムスタンプ エンコーディングを使用すると、ネットワークは現在のオブジェクトの形状を効果的に区別することもできます。

3. その他のイノベーション

2 段階のラベル割り当て問題では、まず軌道トラック iou に従って軌道が照合されます。軌道が一致すると、軌道内のボックスとGTが関連付けられます。これにより、不一致が軽減され、モデルが全体の軌道の方向に最適化できるようになります。

4.デットゼロ 

1. 論文概要

この記事全体では主に、アップストリームでの高リコールの検出と追跡、そしてダウンストリームでの高精度の改良に重点を置いています。スライディングウィンドウに基づくオブジェクト中心の改良方法は、オブジェクトの共通の特徴の利用を無視するため、良くありません。したがって、オブジェクトの軌跡の整合性にさらに注意を払い、アテンション メカニズムを使用して長期情報を抽出し、オブジェクトの属性を最適化します。

2. アルゴリズムフレームワーク

最初のステップ: 検出にセンターポイントを使用し、5 フレームの点群の組み合わせを入力し、タイム コーディングを追加します。第 2 段階では、正確な予測のために元の点特徴 + ボクセル特徴を使用し (構造については関連論文を参照してください)、TTA とモデル拡張予測を使用します。TTA とは、入力データを強化し、検出結果を強化前の検出結果と融合することを指します。モデル強化の論文では、3 つのフレームを融合した結果と 5 つのフレームの結果を組み合わせることが説明されています。

ステップ 2: 不滅の追跡方法に従って、順方向追跡と逆方向追跡を実行し、WBF を使用して 2 つの追跡ボックスを融合します。同時に,2段階のデータ関連付け戦略を使用して誤ったマッチングを減少させた.ボックス信頼度に従って,高いグループと低いグループに分けた.新たに検出された高いグループは最初に既存の軌跡と関連付けられ,そして,正常に関連付けられたボックスは、既存の軌道を更新するために使用されます。軌道については、相関のない高グループ化ボックスがある場合、新しい軌道が生成され、低グループ化に追加されます。更新されていない軌道は、さらに低グループ化に関連付けられます。残りの無関係な下位グループ化ボックスは破棄されます。

ステップ 3: オブジェクト シーケンスのボックス、内部の点、および信頼水準を抽出します。改良の第 3 段階では、幾何学的サイズ改良モジュール、位置改良モジュール、および信頼性改良モジュールという 3 つの改良方向があります。

3. リファインメントモジュールの詳細説明

ジオメトリ改良モジュール

1. ローカル ボックス座標系で異なるフレーム内の同じオブジェクトを位置合わせし、それらの点を結合し、一連の点 n = 4096 をランダムに選択します。 2. 各点について、ボックスの
6 つの面までの距離を計算します。同時に、ボックスの信頼性とともに、ポイントの特徴寸法も強化されます。3. 適切な Q 初期化はトランスフォーマーの収束に役立つため、まず軌道から T フレームを選択し、各フレーム内の 256 個のポイントをランダムに選択し、ポイントネットを使用してそれらを T*D の次元にエンコードします。次に、ポイントネットを使用して 4096 ポイントの密なポイント フィーチャを抽出します。K 次元と V 次元は n*D です。Q はまずマルチヘッド セルフ アテンション メカニズムに送信され、選択されたサンプル間の豊富なコンテキスト情報がエンコードされます。 QKV はクロスアテンション メカニズムを実行し、次に FFN を実行して、T 個のクエリ特徴を T 個の幾何学的サイズにデコードし、それらを平均します。
上記の T の選択では、トレーニング中に 3 つのフレームがランダムに選択され、最も高いスコアを持つ 3 つのフレームが推論中に選択されます。

位置調整モジュール

1. i 番目のオブジェクトについては、新しいローカル座標系として軌道からボックスをランダムに選択し、他のボックスと点はこの座標系に転送され、フレームごとに固定点が選択されます。各点は、ボックスの中心と 8 つの隅の点 (27 次元フィーチャ) までの距離を計算します。同時に、トレーニングを容易にするために、すべての軌跡を 0 から同じ長さ (200) で埋めます
2. ポイントネット エンコーディングを使用して L*D 特徴を生成します、L は軌跡の長さ、D には位置エンコーディングが含まれます特徴 + 信頼スコア。もう 1 つは、すべてのサンプリング ポイントを入力として受け取り、オブジェクトの軌跡全体の点の特徴を抽出します。npos*D、npos はすべての軌跡の点を表します。Q は最初にセルフ アテンション モジュールに送信され、それ自身と他のボックスとの間の距離を捕捉します。次に、QKV クロスアテンション メカニズムがローカル位置からグローバル位置をエンコードし、最後にローカル座標系の各ボックスの中心点のオフセットと角度オフセットを予測します。

信頼性改良モジュール

アップストリームは十分に長い軌道を生成するため、多くの誤検知が発生し、それに対して信頼度の調整を実行します。これには 2 つの分岐があります。最初の分類分岐は 2 段階の socre 洗練に似ています。2 番目の iou 分岐は、洗練と GT の後のオブジェクトの iou を予測します。最後に、2 つのスコアの平方根を取得して、最終的な信頼度を取得します。 。トレーニング中に、iou に基づいて正と負のサンプルを追跡ボックスと GT に割り当て、残りは寄与しません。損失の計算に 1:1 を選択すると、より良い収束を達成できます。pointnet を使用してフィーチャ オブジェクトのポイントをエンコードし、MLP が 2 つのヘッド予測をフィードします。

5. 参考資料 

データ閉ループの中核 - 自動ラベル付けソリューション共有 V2.0 - Zhihu (zhihu.com)

データクローズドループの中核 - 自動ラベル付けソリューション共有 - Zhihu (zhihu.com)

これら 2 つの記事は、Hongjing Zhijia の 3D 認識担当者によってまとめられたもので、非常に簡潔かつ包括的です。

おすすめ

転載: blog.csdn.net/slamer111/article/details/132289758