3D車線検出紙読み取り:3DLaneNet


この論文は、深層学習に基づく画像ベースの 3D 車線検出の先駆的な研究であり、2019 年の ICCV でゼネラル モーターズ イスラエル研究センターによって提案されました。2020 年の ECCV で Apollo によって提案された Gen-LaneNet と、改良された 3D-LaneNet+オリジナルチームによる作品は以下の記事で紹介します。

用紙のアドレス:

https://openaccess.thecvf.com/content_ICCV_2019/papers/Garnett_3D-LaneNet_End-to-End_3D_Multiple_Lane_Detection_ICCV_2019_paper.pdf

合成 3D レーン データセットのアドレス: (https://link.zhihu.com/?target=https%3A//sites.google.com/view/danlevi/3dlanes)

0 概要

道路シーンの車線の 3D レイアウトを 1 つの画像から直接予測できるネットワークを紹介します。この研究は、既知の一定の車線幅を仮定したり、事前にマップされた環境に依存したりすることなく、車載ビジョンセンシングを使用してこの課題を解決する最初の試みを示しています。当社のネットワーク アーキテクチャである 3D-LaneNet は、ネットワーク内の逆遠近マッピング (IPM) とアンカーベースのレーン表現という2 つの新しい概念を適用しています。ネットワーク内の IPM プロジェクションは、通常の画像ビューとトップ ビューの二重表現情報フローを促進します。列ごとのアンカー出力表現により、クラスタリングや外れ値の除去などの一般的なヒューリスティックを、物体検出問題としての車線推定に置き換えるエンドツーエンドのアプローチが可能になりますさらに、私たちの方法は、レーンのマージやセグメンテーションなどの複雑なケースを明示的に処理します。結果は、合成データと実際データの 2 つの新しい 3D レーン データセットで表示されます。既存の手法と比較するために、単純な画像のみの車線検出ベンチマークで手法をテストし、最先端の手法と競合するパフォーマンスを達成しました。

1 イノベーションポイント

  1. 新しい問題、つまり幾何学的な仮定を持たない単一フレームの 3D 車線検出と新しい評価基準が導入されました。
  2. ネットワーク内の機能の IPM プロジェクションを実装する新しいデュアルパス アーキテクチャ。
  3. 3D および 2D レーン検出のための直接のエンドツーエンド ネットワーク トレーニングを可能にする、新しいアンカーベースのレーン出力表現。
  4. レーン トポロジー (レーン数、結合、分割) と 3D 形状バリエーションを備えた確率的合成サンプルを生成する方法

2つの方法

2.1 一般的なフレームワークの紹介

3D LaneNet の全体的なネットワーク構造は次の図に示されています. 上部チャネルと下部チャネルがわかります. 上部チャネルは元の入力正面図の特徴を抽出し, 最後に後続の正面図のための SIPM に対するカメラのピッチ角 θ を予測しますフィーチャをトップ ビュー フィーチャに変換します。下のチャネルは、さまざまなスケールで正面図の特徴から変換された上面図の特徴を受け取り、継続的に上面図の特徴を抽出し、最終的に 3D 車線境界線関連データの予測を出力します。

ここに画像の説明を挿入

図1 3D LaneNetネットワーク構造図

図 2 に示すように、車両に搭載されたフロント カメラで撮影された 1 つの画像が入力として取得されます。この論文では、カメラ κ の固有パラメータ (焦点距離、投影中心など) が既知であり、カメラがローカル グラウンド プレーンに対して 0 度のロール位置に設置されていると仮定しています (この仮定も適切ではありません)既知のカメラの高さとピッチ角は、車両のダイナミクスによって変化する可能性があるため、想定されていません。図 3 に示すように、この論文では、車線は車線の中心線車線分離線(つまり、車線とよく呼ばれるもの) によって表されます。このような各車線エンティティ (中心線または分割線) は、カメラ座標 (Ccamera) で表される 3D 曲線です。タスクは、特定の画像の車線の中心線と車線区切り線のセットを検出することです。
ここに画像の説明を挿入

図2 カメラ設置位置と道路投影図
物体検出にヒントを得て、アンカーを使用して車線候補を定義し、洗練されたアンサンブル表現を使用して各アンカーの正確な 3D 車線形状を記述します。アンカーは図 3 の縦線に対応し、洗練された車線の形状はそれぞれのアンカーに対する 3D 点に対応します。各アンカー ポイント $X^i_A$ は、2K のネットワーク出力 $(x^i,z^i)=\{(x^i_j,z^i_j)\}^K_{j=1}$ と、 K 個の事前定義された y 軸座標 $y=\{y_i\}^K_{j=1}$ は、3D 車線の点セットを定義します。値 $x^i_j$ はアンカー位置 $X^i_A$ を基準とした水平オフセットです。つまり、出力 $(x^i_j,z^i_j)$ は点 $(x^i_j+X^i_A を表します) ,y_j, z^i,j)\in \mathbb R^{3}$。さらに、各アンカーには、そのアンカーに関連付けられたレーンが存在するという確信が与えられます。

各アンカー ポイントのネットワーク出力には 3 つのタイプが含まれます。最初の 2 つのタイプ( c 1 、 c 2 ) (c_1、c_2)( c1c2)は車線の中心線を表し、3 番目のタイプは車線分離線を表します。考えられる 2 つの中心線を各アンカーに割り当てると、ネットワークで結合と分割がサポートされます。つまり、2 つの車線の中心線はY ref Y_{ref}Yリフレ_道路の異なる位置で一致したり分離したりする。したがって、最終的な予測層ベクトル サイズは3 ⋅ ( 2 ⋅ K + 1 ) × 1 × N 3\cdot(2\cdot K+1)\times 1 \times N となります。3( 2K+1 )×1×N、列ごとにiii はアンカー ポイントに対応します。i ∈ { 1... N } i\in\{1...N\}{ 1... N }アンカー ポイント内の各ポイントのネットワーク出力形式は( xti , zti , pti ) (x^i_t,z^i_t,p^i_t)( ×t私はzt私はpt私は最終的な予測では、オブジェクト検出では一般的な 1D 非最大抑制が実行されます。(左右の隣接アンカーと比較して) ローカル信頼度が最も高いレーンのみが保持されます。非最大抑制後の各レーンは、少数 (K) の 3D ポイントで表され、スプライン補間を使用して滑らかな曲線に変換されます。

ここに画像の説明を挿入

図 3 上面図の出力表現

2.2 モジュールの紹介

2.2.1 トップビュー投影(トップビュー投影)

IPM は、フロントビュー イメージを仮想トップビュー イメージにワープするホモグラフィーであり、カメラ回転ホモグラフィー (ビューが下向きに回転) を適用し、その後に異方性スケーリングを適用するのと同等です。この論文では、カメラの内部パラメータや道路に対するカメラの姿勢とは無関係に、上面図画像の各ピクセルが道路上の事前定義された位置に対応していることを確認したいと考えています。図 2 では、カメラ座標は Ccamera = ('x', 'y', 'z')、道路座標は Croad = (x, y, z)、Proad はローカル道路表面に接する平面です: z方向は Proad Normal、y は y´on Proad の投影です (つまり、原点は Proad 上のカメラ中心の投影です)。Tc2r は 6-DOF です。カメラとカメラ Croad 間の変換 (3D 変換と 3D 回転)。ロール角はゼロと仮定されているため、Tc2r はカメラのピッチ角 θ と地面からの高さ hcam によって一意に定義されます。

Proad 上の各点を画像平面座標のホモグラフィー Hr2i にマッピングします。Proad→Pimg は Tc2r と κ によって決定されます (参考: Multiple View Geometry in Computer Vision)。最後に、IPM は、トップビュー領域の境界とメートルからピクセルまでの異方性スケーリングを定義するパラメータ IPM-Params の固定セットを使用して、Hr2i から取得されます。トップ ビュー イメージは、サンプリング グリッド SIPM によって定義された双一次補間を使用して生成されます。

投影されたピクセル値は通常浮動小数点数であり、その周囲のピクセルは双一次補間によってサンプリングされます。

2.2.2 射影変換層(射影変換層)

この部分は主に、図 1 で青でマークされた射影変換層です。この層は、射影変換層モジュール [空間変換ネットワーク] の特定の実装に若干の変更を加えたものです。入力された画面空間に対応する特徴マップに対して微分サンプリングを行い、チャンネル数を保ったままシーンの仮想俯瞰空間に対応する特徴マップを出力します。

道路予測予測分岐

画像ビュー パス ネットワークの最初の中間出力は、道路投影面 Proad の推定値です。基本的に、この分岐は Tc2r (カメラの道路座標への変換) を予測します。監視された方法でトレーニングされます。Tc2r はトップビュー ホモグラフィー Hr2i とサンプリング グリッド SIPM を決定するため、Tc2r はトップビュー パスのフィードフォワード ステップで必要となります。推論時には、Croad で表現されたネットワークの出力をカメラに変換するためにも使用されます。この場合、Tc2r はカメラの高さ hcam とピッチ θ によって定義されるため、これらはこのブランチの 2 つの出力です。実際、フロント ビュー ブランチは 2 つのパラメーターを予測します: カメラの高さ hcam カメラのピッチ角度 θ (ただし、高さはからは見えません)全体像の予測出力)。

車線予測ヘッド

物標検出の影響を受けるため、3次元の車線境界線をアンカーで表現します 図3に示すように、道路座標系ではx軸に沿って等間隔にアンカーを設置し、各アンカーをy軸に固定したK座標上で予測します-axis: x 座標オフセットと高さ z は、車線の境界線を表す 3 次元座標のセットを形成します。さらに、各アンカーは信頼度 (アンカーに車線があるかどうかを示す) も予測します。次元は (2K+1) です。各アンカーについて、ネットワークは最大 3 つのタイプの車線記述子 (信頼性とジオメトリ) を出力します。最初の 2 つ (c1、c2) は車線の中心線を表し、3 番目のタイプ (d) は車線セパレーターを表し、実際の車線の境界線を表します。車線分離線のトポロジは通常、中心線のトポロジよりも複雑であり、私たちの表現ではすべてのケースを捉えることはできません。

最終的な予測ヘッドのサイズは、3・(2・K + 1) × 1 × N (N はアンカーの数、K は y 軸上に設定された予測ポイントの数) です。最終的な予測では、オブジェクト検出で一般的な 1D 非最大抑制が実行されます。(左右の隣接アンカーと比較して) ローカル信頼度が最も高いレーンのみが保持されます。残りの各車線は、少数 (K) の 3D 点で表され、スプライン補間を使用して滑らかな曲線に変換されます。

Q: 2 本の中心線 c1 と c2 が必要なのはなぜですか?

回答: 各アンカー ポイントに 2 つの可能な中心線を割り当てると、合流と分割に対するネットワーク サポートを提供できます。その結果、図 3 の右端の例に示すように、通常、2 車線の中心線はある点で一致し、異なる道路位置で分離されます。(個人的には、アンカーが 2 車線の中心線を予測する場合、一般的に横オフセット予測値を大きくする必要があり、予測の難易度が高くなると思います)

2.2.3 トレーニング

トレーニング時間および評価中に、レーン全体が有効なトップビュー画像の範囲内でY ref Y_{ref}を横切らない場合Yリフレ_、その後、レーン全体を無視します(個人的には、 Y ref Y_{ref}を通過しないと思います)Yリフレ_(図 3 に示す) は無視されると良くありません); 車線ポイントが地形によって隠されている場合 (つまり、丘の頂上を越えている場合)、車線ポイントは無視されます。全体的な損失関数は次のとおりです。信頼度にはクロスエントロピー損失が使用され、その他には L1 損失が使用されます。

3つの実験

3.1 評価指標

検出精度と幾何推定精度を分離した3次元車線検出の評価手法を提案する。検出精度は、適合率 - 再現率曲線の標準平均精度 (AP) 測定値から計算されます。GT と検出された車線の間のカーブ距離は、最初にポイントからユークリッドまでの距離の加重合計として計算されます。距離は、事前定義された y 値のセットを使用して曲線に沿って測定され、0 ~ 80 メートルの範囲で 80 cm ごとに測定され、距離に応じて重みが減衰します。次に、類似度が減少するペアを選択することにより、1 対 1 (曲線) マッチングが実行されます。重み付けされた距離がかなり許容可能なしきい値 (1.5 メートル) を下回っている場合、一致は正しいと見なされます。適合率-再現率曲線は、レーン信頼度しきい値を反復処理することによって生成されます。

一致の予測結果については、曲線間の距離の測定に使用したのと同じ点での誤差分布 (点のユークリッド距離) を測定することによって、幾何学的推定の精度を評価しました。エラー サイズの違いにより、データセット全体はさらに近距離 (0 ~ 30 m) と遠距離 (30 ~ 80 m) のレーン ポイントに分割されます。次に、各範囲の 1σ 誤差が 68% 誤差として計算され、2σ 誤差が 95% 誤差として計算されます。

3.2 導入の詳細

トレーニング中にグラウンド トゥルースがアンカーとどのように一致するか:

  1. IPM を通じて、すべての車線と車線の中心線を上面ビューに投影します。
  2. Y ref Y_{ref}Yリフレ_各行の位置をxxに一致させますx方向で最も近いアンカー ライン セグメント
  3. 各アンカー ポイント上の一致するラインについて、左端の車線の線と中心線をd , c 1 d,c_1として割り当てます。d c1、他の中心線がある場合は、c 2 c_2として割り当てられます。c2

5.3 精度の結果

シミュレーション データセット:
ここに画像の説明を挿入

実際のデータセット:
ここに画像の説明を挿入

視覚化の結果:
ここに画像の説明を挿入

4 分析

長所:画期的な仕事

欠点:

2D と 3D の幾何学的事前分布は単純すぎるため、重大なエラーが発生する可能性があります。

デュアルチャネルは並列コンピューティングではなく、トップビューのチャネル予測は、最終的なイメージビューの予測結果が出た後にのみ実行できます。

次のようなアンカーの車線ラインは完璧ではありません。

車線分離線のトポロジは通常、中心線のトポロジよりも複雑であり、私たちの表現ではすべてのケースを捉えることはできません。

個人的には、アンカーが 2 車線の中心線を予測する場合、一般に大きな横オフセット予測値が必要となり、予測の難易度が高くなると思います。

車両の形状の方向に垂直な横車線は予測できません。

考えられる改善点:

3D レーンの表現や効率については、以下の Gen-3DLaneNet\3DLaneNet+ などを参照してください。

参考文献

Zhihu: 自動運転 – 車線検出 – 3D-LaneNet: エンドツーエンドの 3D 複数車線検出

CSDN: 3D-LaneNet: エンドツーエンドの 3D 複数レーン検出

Arxiv: 3D-LaneNet: エンドツーエンドの 3D 複数レーン検出

スプライン補間

おすすめ

転載: blog.csdn.net/qq_37214693/article/details/130927403