BEV-LaneNet を超えて: 3D 車線検出タスクにおける BEV と車線表現の同時学習のための効率的なトランスフォーマー

「自動運転ハート」公開アカウントに注目するには下のカードをクリックしてください

ADAS ジャンボ乾物、手に入れられます

今日は、自動運転の中心が、BEV-LaneNet を超える車線検出の最新の進歩を共有します。私たちの方法では、車線の特徴を画像ビューと BEV の特徴にそれぞれ適用することで、2D と 3D の車線予測を取得します。共有したい関連作品がある場合は、記事の最後にご連絡ください。

>>クリックしてエントリー→自動運転の心臓部「車線検出」技術交流会

エディター | オートパイロットの中心部

397fbc35f72d2bfb9b825425d5fb23e2.png

自動運転には、3D 空間での車線の正確な検出が不可欠です。既存の方法は通常、まず逆遠近マッピング (IPM) を利用して画像ビューの特徴を鳥瞰図 (BEV) に変換し、次に BEV 特徴に基づいて車線境界線を検出します。ただし、IPM は道路の高さの変化を無視するため、ビューの遷移が不正確になります。さらに、プロセスの 2 つの独立した段階によりエラーが蓄積され、複雑さが増す可能性があります。これらの制限に対処するために、3D レーン検出用の効率的な変換器を提案します。バニラのトランスフォーマーとは異なり、このモデルには、車線表現と BEV 表現を同時に学習するための因数分解されたクロスアテンション メカニズムが組み込まれています。このメカニズムは、画像ビューと BEV 特徴間の相互注意を、画像ビューと車線特徴間の相互注意と、車線と BEV 特徴間の相互注意に分解します。どちらも GT レーン ラインによって管理されます。

私たちの方法では、車線の特徴を画像ビューと BEV の特徴にそれぞれ適用することで、2D と 3D の車線予測を取得します。これにより、ビュー変換は教師付きクロスアテンションでデータから学習されるため、IPM ベースの方法よりも正確なビュー変換が可能になります。さらに、車線機能と BEV 機能の間のクロスアテンションにより、2 つの個別の段階よりも正確に車線を検出するために相互に調整することができます。最後に、分解されたクロス アテンションは元のクロス アテンションよりも効果的であり、OpenLane と ONCE-3DLane での実験結果は、私たちの方法の最先端のパフォーマンスを示しています。

現在この分野で主流となっている手法の欠点

車線検出は、ルート計画、車線維持支援、高精細 (HD) 地図作成などの下流タスクの範囲を可能にするため、運転支援および自動運転システムの重要なコンポーネントです。近年、深層学習ベースの車線検出アルゴリズムは 2D 画像空間で目覚ましい結果を達成していますが、実際のアプリケーションでは通常、車線の境界線は 3D 空間または鳥瞰図 (BEV) で表現する必要があります。これは、計画や制御など、環境との対話を伴うタスクに特に役立ちます。

一般的な 3D 車線検出パイプラインは、最初に画像ビュー内の車線の境界線を検出し、次にそれを BEV に投影します。通常、平坦な路面を想定した逆遠近法マッピング(IPM)により投影が行われますが、図1に示すように、IPMでは道路の高さの変化が無視されるため、上り坂や下り坂の場合、投影された車線が発散してしまいます。または収束します。この問題を解決するために、SALAD は車線境界線の実際の深さとその画像ビュー位置を予測し、カメライン/アウト投影を使用してそれを 3D 空間に投影します。ただし、深さの推定は一定の距離では正確でなくなり、車線境界線の画像ビュー位置に影響を与えます。投影精度!

72639eac805e530e2f3052631b4743c6.png

最先端の方法は、BEV から直接車線の 3D 構造を予測する傾向があり、まず IPM を利用して画像ビューの特徴マップを BEV に変換し、次に BEV の特徴マップに基づいて車線を検出します。ただし、図 1(c) に示すように、IPM の平面仮定により、凹凸のある道路に遭遇した場合、グラウンド トゥルースの 3D 車線ライン (青線) が BEV 車線フィーチャ (赤線) と一致しません。この問題に対処するために、一部の方法では、最初にグラウンドトゥルースの 3D 車線を画像平面に投影し、次に IPM を介してそれらを平らな道路平面に投影することによって、仮想トップダウン ビューを表現します (図の段落 1(c) の赤い線) ). のグラウンドトゥルース 3D トレース。これらの方法は、車線境界線の実際の高さと仮想俯瞰図での位置を予測し、最終的に幾何学的変換を通じて 3D 空間に投影します。ただし、予測された高さの精度は、変換された BEV 位置に大きく影響し、モデルの堅牢性に影響します。さらに、ビュー変換と車線検出が分離されているため、誤差が累積し、複雑さが増加します。

現在の方法のこれらの限界を克服するために,本稿では,3D車線検出のための効率的な転送機構を提案する.私たちのモデルには,車線とBEVの表現を教師付きで同時に学習する因数分解された注意メカニズムが組み込まれている。このメカニズムは、画像ビューと BEV 特徴間の相互注意を、画像ビューと車線特徴間の相互注意と、BEV と車線特徴間の相互注意に分解し、分解された相互注意を GT 車線ラインで監視します。レーン特徴を画像ビューと BEV 特徴にそれぞれ適用することで得られます。

これを達成するために、車線の特徴に従って各車線境界線に対して動的カーネルが生成され、画像ビューと BEV 特徴マップがこれらのカーネルで畳み込まれ、画像ビューと BEV オフセット マップがそれぞれ取得されます。オフセット マップは、2D および 3D 空間内の最も近い車線ポイントまでの各ピクセルのオフセットを予測します。これは、投票アルゴリズムを使用して処理され、最終的な 2D および 3D 車線ポイントがそれぞれ取得されます。ビュー変換は教師付きクロスアテンションを使用してデータから学習されるため、IPM ベースのビュー変換よりも正確です。さらに、車線と BEV の特徴はクロスアテンションを通じて相互に動的に調整できるため、2 つの別々の段階よりも正確な車線検出が可能になります。私たちの因数分解されたクロスアテンションは、画像ビューと BEV 機能の間の通常のクロスアテンションよりも効果的です。OpenLane と ONCE-3Lanes を含む 2 つのベンチマーク データセットでの実験により、私たちの手法の有効性と効率性が実証されました。

3D車線ラインとトランス方式

3D 車線検出は画像ビューで実装できます。一部の方法では、まず画像ビューで 2D 車線を検出し、次にそれを鳥瞰図に投影します。2D 車線検出問題を解決するために、アンカーベース、パラメータベース、セグメンテーションベースの方法など、さまざまな方法が提案されています。車線の投影に関しては、一部の方法では逆遠近マッピング (IPM) が使用されます。これにより、平面の仮定から生じる凹凸のある道路に直面すると、投影された車線が発散または収束します。

この問題を解決するために、SALAD は車線境界線の実際の深さとその画像ビュー位置を予測し、それをカメライン/アウト投影によって BEV に投影します。ただし、一定の距離では奥行き推定が不正確になり、投影精度に影響します。また、他の方法では画像ビューから車線境界線の 3D 構造を直接予測します。たとえば、CurveFormer は、画像ビューの特徴から直接車線の 3D 曲線パラメータを予測するトランスフォーマーを適用し、Anchor3DLane は、3D 空間で定義された車線アンカーを画像ビューの特徴マップに投影し、分類と回帰のためにその特徴を抽出します。遠方画像表示機能の低解像度制限から!

BEV下での3D車線境界線検出

3D 車線検出のもう 1 つの方法は、最初に画像ビュー特徴マップを BEV に変換し、次に BEV 特徴マップに基づいて車線境界線を検出することです。ビュー変換は通常 IPM に基づきます。たとえば、一部の方法ではビュー変換に空間変換ネットワーク (STN) を採用しており、STN のサンプリング グリッドは IPM で生成されます。PersFormer はビュー変換に変形可能なトランスフォーマーを使用します。トランスフォーマー デコーダーの参照点は IPM によって生成されます。

ただし、IPM は平面を前提としているため、平坦でない道路に遭遇した場合、グランド トゥルースの 3D 車線ラインは、基礎となる BEV 車線フィーチャと一致しません。この問題に対処するために、一部の方法では、最初にグラウンド トゥルース 3D 車線を画像平面に投影し、次に IPM を使用してその結果を平らな地面に投影することによって、仮想俯瞰ビューでグラウンド トゥルース 3D 道路線を表現します。車線境界線の実際の高さと仮想上面図での位置を予測し、幾何学的変換によって 3D 空間に投影します。ただし、予測された高さの精度は、変換された BEV の位置、つまりモデルの堅牢性に大きく影響する可能性があります。BEV LaneDet は、より優れたビュー変換を実現するために多層パーセプトロン (MLP) を適用しますが、そのパラメーター サイズは非常に大きくなります。

変圧器に注意

トランスフォーマーのアテンション メカニズムでは、クエリとキーの間のペアごとの類似度の計算が必要ですが、クエリとキーの数が多いと複雑になります。この問題に対処するために、一部のメソッドでは、アテンション マトリックスを計算するときに、各クエリのキーワードのセット全体ではなく、キーワードのサブセットのみに焦点を当てます。CCNet は、十字パスに沿ったすべてのピクセルのコンテキスト情報のみを取得するアテンション モジュールを提案し、Deformable DETR は、学習された参照ポイントの周囲でサンプリングされた単一ピクセルのみに焦点を当てるアテンション モジュールを提案します。Swin-Transformer は、クロスウィンドウ接続を許可しながらオーバーラップしないローカル ウィンドウへのセルフ アテンションを制限するシフト ウィンドウ モジュールを提案しています。また、他の方法では、アテンション行列の計算を高速化するために低ランク近似を適用します。Nystromformer は、Nystrom の方法を使用して元のアテンション マトリックスを再構築し、計算量を削減します。Nystromformer は低ランク分解にランダムにサンプリングされた特徴を使用しますが、私たちの方法はレーン クエリに従って元のアテンション マトリックスを 2 つの低ランク部分に分解し、各部分は GT によって監視でき、3D レーン検出タスクにより適しています。既存の変圧器の近似では通常、ある程度の精度が犠牲になりますが、私たちの方法は元の変圧器よりも優れたパフォーマンスを実現します。

メソッドの紹介

この論文では、エンドツーエンドの 3D レーン検出のための効率的な変換器を提案し、最初に全体的なフレームワークを紹介し、次に効率的な変換器モジュール、チャネル検出ヘッド、バイナリ マッチング ロスなどの各コンポーネントについて詳しく説明します。全体的なフレームワークを図 2 に示します。このフレームワークは、入力画像から画像ビューの特徴マップを抽出する CNN バックボーンから始まります。次に、効率的な変換モジュールは、因数分解されたクロスアテンション メカニズムを使用して、画像ビューの特徴から車線および鳥瞰図 (BEV) の特徴を学習します。画像ビューと BEV 機能は、それぞれの位置エンコーダーを使用して位置埋め込みを追加します。次に、車線検出ヘッドは車線の特徴を使用して、各車線の動的カーネル スコアとターゲット スコアのセットを生成します。これらのカーネルは、画像ビューと BEV 特徴マップを畳み込み、それぞれ画像ビューと BEV オフセット マップを生成するために使用されます。これら 2 セットのオフセット マップは投票アルゴリズムで処理され、最終的な 2D および 3D レーン ポイントがそれぞれ取得され、モデルをトレーニングするために 2D/3D 予測とグランド トゥルースの間の 2 部マッチング損失が計算されます。

768cea841b2e60b67be15bd28abb31d1.png

効率的な変圧器モジュール

図 2 に示すように、入力画像 X∈R^{H_0×W_0×3} が与えられた場合、まず CNN バックボーンを使用して画像ビューの特徴マップ F∈R^{H_a×W_a×C} を抽出します。ここで、Ha 、Wa および C は、それぞれ F の高さ、幅、チャネルです。特徴マップ F には、位置エンコーダ (セクション 3.3 で説明) によって生成された位置埋め込み E ∈ R^{H_a×W_a×C} が追加され、シーケンス I ∈ R^{H_a×W_a×C} に平坦化されます。 。学習可能なパラメータを持つ BEV クエリ マップ T ∈ R^{H_b×W_b×C} が初期化され、これにより位置エンコーダが生成した別の位置埋め込み P ∈ R^{H_b×W_b×C} も追加され、シーケンスに平坦化されます。 B ∈ R^{H_b×W_b×C}。

画像ビューの特徴と BEV クエリを取得した後、学習可能なパラメータを持つ一連の車線クエリ Q ∈ {R^{L×C}} が初期化され、L 個の異なる車線ライン プロトタイプが表されます。次に、車線特徴 O ∈ {R^{L×C}} が交差注意画像ビュー特徴 I と BEV クエリ B から学習されます。O_i ∈ R^C は、i 番目の車線特徴が i- th レーンは Qi をクエリし、Oi は次の方法でそれを取得できます。

15740dd10e34e3c8f04e66cac83538f4.png 6349d8d5d76f3d6cbeb9d2529df24857.png

次に、BEV 特徴 V は車線特徴 O に従って構築され、交差点注意力は次のようになります。

29a646484334647c19229164ed91fc88.png

ここで、gv( ) および fv( , ) は、学習可能な重み行列を除いて、それぞれ式の go( ) 、 fo( , .) と同じ形式を持ちます。このようにして、図 3 に示す BEV 特徴 V と画像ビュー特徴 I 間のクロスアテンションは、画像ビュー特徴 I とレーン特徴 O の間のクロスアテンションと、レーン特徴 O と BEV 特徴 V の間のクロスアテンションに分解されます。交差点注意!

b5e21874665d7f18533e0a4125937ea0.png

元のクロスアテンションと比較して、分解されたクロスアテンションには 3 つの利点があります。まず、2D および 3D のグラウンド トゥルース 車線の分解されたクロス アテンションを監視することで、ビューの変換が向上します。2D および 3D 車線予測は、車線特徴 O を画像ビュー特徴 I および BEV 特徴 V にそれぞれ適用することによって取得されます。第二に、車線特徴 O と BEV 特徴 V の間の動的な調整がクロス アテンションによって実現され、3D 車線検出の精度が向上します。第三に、計算量が大幅に削減され、リアルタイム効率が向上します。

同様に、画像ビューの特徴 I は、次のようにクロスアテンションを伴うオブジェクトの特徴 O で更新されます。

c3a4732b53da4d4a6a3825baa7ffa48c.png

元の自己注意と比較して、分解された自己注意は、交差注意を通じて車線特徴 O と画像ビュー特徴 I の間の動的な調整を実現し、その結果、2D 車線検出の精度が向上します。さらに、画像ビュー特徴 M と BEV 特徴 V は両方ともオブジェクト特徴 O から構築されるため、相互により適切に位置合わせすることができます。

位置の埋め込み

画像ビュー位置埋め込み E の場合、3D 座標グリッド G が最初にカメラ空間に構築されます。ここで、D は離散深度ビンの数です。G の各点は、pj = (uj×dj, vj×dj, dj, 1) として表すことができます。ここで、(uj, vj) ​​は画像ビュー特徴マップ F 内の対応するピクセル座標であり、dj は対応する奥行き値です。 。次に、グリッド G は次のように 3D 空間のグリッド G' に変換されます。

e96f52196c0d1cf5032ace3c92a937c3.png

各ピクセルが各高さビンに属する確率を示す高さ分布 Z ∈ R^{H^b×W^b×Z} を T から予測し、次のように P を埋め込む位置を取得します。

8bf2e15640f4b89fa73fff205a9521ae.png

車線検出ヘッド

まず、2 つの多層パーセプトロン (MLP) がレーン特徴 O に適用され、2 セットの動的カーネル K_a∈R^{L×C×2} と K_b∈R^{R×C×3} がそれぞれ生成されます。次に、K_a と K_b を適用して画像ビュー特徴 M と BEV 特徴 V を畳み込み、画像ビュー オフセット マップ R_a∈R^{L×Ha×Wa×2} と BEV オフセット マップ R_b∈R^{L×Hb を取得します。 ×Wb×3}。Ra は、画像ビュー内の各ピクセルの最も近い車線点までの水平方向および垂直方向のオフセットを予測します。Rb は、BEV 内の最も近い車線点までの各ピクセルの x および y 方向のオフセットと、車両の実際の高さを予測します。レーンポイント!

次に、別の MLP がレーン特徴 O に適用され、N レーン クラスの背景、前景、確率を含むターゲット スコア S ∈ R^{Lx(2+N)} が生成されます。次に、イメージビュー オフセット マップ Ra と BEV は、投票アルゴリズムを使用してオフセット マップ Rb を処理し、それぞれ 2D および 3D レーン ポイントを取得します。Rb のプロセスはアルゴリズム 1 に示されており (z と r が削除される点を除いて Ra と同様)、投票アルゴリズムはすべてのピクセルの予測車線点に投票し、投票が車線幅のしきい値 w を超える点を選択して、予測車線を形成し、最後に、前景確率がオブジェクトしきい値 t を超える予測車線のみを出力として保持します。

be9e06825a63c67f71563fec256476ea.png

二部マッチング損失

676fbcd064f7fd036b30e5167aeeaec9.png 915df77a109d2f3b929e81e945eb84fb.png 49a61788d0122bb754fb5a9036df8f88.png 6694dde4c68c02fafe2ce4b566362cf4.png 00c7bfeddd2365bcb5ca04f7b260f5b8.png

実験結果

実験は、OpenLane と ONCE-3DLanes の 2 つの 3D レーン検出ベンチマークで行われます。OpenLane には、トレーニング セットと検証セット用にそれぞれ 160K と 40K の画像が含まれています。検証セットには、カーブ、交差点、夜間、異常気象、合流と分割、上りと下りを含む 6 つの異なるシナリオが含まれています。道路端、黄色の二重実線車線などを含む 14 の車線カテゴリに注釈が付けられます。ONCE-3D レーンには、それぞれトレーニング、検証、テスト用の 200K、3K、8K 画像が含まれており、次のような朝、昼、午後、夜のセグメントのさまざまな時間をカバーします。晴れ、曇り、雨などの気象条件や、市街地、郊外、道路、橋、トンネルなど。

F スコアによる回帰、分類のためのレーンの一致精度、および予測をグラウンド トゥルースと一致させるための編集距離。ここで、Y 位置の 75% が最大許容距離未満の点単位の距離内にある場合にのみレーンが予測されます。 1.5 メートルの場合のみ、実際の車線とみなされます。ONCE-3D レーンの場合、2 段階の評価メトリクスを使用して、予測レーンと GT レーン間の類似性を測定します。まず、従来の IoU 方法を使用して俯瞰図で車線を一致させます。IoU がしきい値 (0.3) より大きい場合は、片面の面取り距離を使用して曲線マッチング誤差を計算します。面取り距離がしきい値より小さい場合は、 (0.3 メートル)、予測された車線は実際の車線と見なされます。

ResNet-18、ResNet-34、EfficientNet (-B7) が使用され、ImageNet の事前トレーニングされた重みが CNN バックボーンとして使用されます。入力画像はランダムな水平反転とランダムな回転で拡張され、368×480 にサイズ変更されます。BEV 特徴マップの空間解像度は 50 × 32 で、x 方向と y 方向にそれぞれ [-10, 10] × [3, 103] メートルの範囲の BEV 空間を表します。BEV オフセット マップは、最終予測のために 400 × 256 にサイズ変更されます。AdamW は最適化されており、ベータ値は 0.9 と 0.999、重み減衰は 1e−4 です。bs サイズは 16 に設定され、モデルを 50 エポックトレーニングします。

d0b29bd404adf432a580fc3d56df3f2e.png

OpenLane データセットのパフォーマンス、OpenLane 上での比較結果を表 1 に示します。ResNet18 をバックボーンとして使用するこのメソッドは、F スコア 60.7 を達成します。これは、PersFormer、Anchor3DLane、BEV LaneDet よりそれぞれ 10.2、6.4、2.9 高い値です。表 2 に示すように、最小の予測誤差は x、y、z 方向でも得られ、私たちの方法は 6 つのシナリオすべてで最高のパフォーマンスを達成し、その堅牢性を示しています。たとえば、バックボーンとして ResNet-34 を使用した「上りと下り」、「曲線」、「交差点」、「結合と分割」のシナリオでは、F スコアは BEV LaneDet よりも 8.2、7.9、5.6、9.4 高くなります。 、 それぞれ。図5に、上り坂、下り坂、カーブ、分岐のシナリオを含むOpenLaneでの定性的な比較結果を示します。比較結果は、凹凸のある道路の車線や複雑なトポロジーの車線を適切に処理できることを示しています。

5b47d7b0383cf995feaba696b83cd0b7.png

ONCE-3DLanes データセットのパフォーマンスと ONCE-3D レーンの比較結果を表 3 に示します。ResNet-18 をバックボーンとして使用した場合、私たちの方法は 79.67 の F スコアを取得しました。これは、SALAD、P​​ersFormer より 15.60 ポイント高いです。スコア 5.34 と 4.80 で、最低の CD エラーも達成されており、提案された方法の精度が良いことを示しています。

ae5a09d71aa6e01b9da62e7e18b21e18.png

注意分解の影響について、この論文では、提案された注意分解と IPM ベースの注意の結果を比較しています。IPM ベースのアテンションは、PersFormer でビュー変換に使用されます。IPM は、Transformermer の参照点を計算するために使用されます。表 4 に示すように、元のアテンションは IPM ベースのアテンションよりわずかに優れたパフォーマンスを示し、分解されたアテンションは、OpenLane と ONCE-3Lanes でそれぞれ元のアテンションよりも 3.3 および 2.3 高い F1 スコアを達成しました。これは、2D および 3D GT を使用して画像ビューと車線特徴間の相互注意、および車線と BEV 特徴間の相互注意を監視することで、分解された注意によりより正確な視点遷移が可能になり、さらに 3D レーンの精度が向上するためです。車線機能と BEV 機能の間を動的に調整することで検出します。

81e74b4978b38bbdd9cd9fe831d09539.png

参考

[1] 3D 車線検出における BEV と車線表現の同時学習のための効率的な変換器。

(1)動画講座はこちら!

自動運転の心臓部は、ミリ波レーダービジョンフュージョン、高精度地図、BEV知覚、センサーキャリブレーション、センサー展開、自動運転協調知覚、セマンティックセグメンテーション、自動運転シミュレーション、L4知覚、意思決定計画、軌道予測などを統合します。 . 方向学習ビデオ、ご自身で受講してください (コードをスキャンして学習を入力してください)

10d421b3e6324eef384537eb2327b44d.png

(コードをスキャンして最新のビデオをご覧ください)

動画公式サイト:www.zdjszx.com

(2) 中国初の自動運転学習コミュニティ

1,000 人近くのコミュニケーション コミュニティと 20 以上の自動運転技術スタックの学習ルートが、自動運転の認識 (分類、検出、セグメンテーション、キー ポイント、車線境界線、3D 物体検出、占有、マルチセンサー フュージョン、物体追跡、オプティカル フロー推定、軌道予測)、自動運転位置決めとマッピング(SLAM、高精度マップ)、自動運転計画と制御、フィールド技術ソリューション、AI モデル展開の実装、業界トレンド、求人リリース、スキャンへようこそ以下の QR コード、自動運転の中心となるナレッジ プラネットに参加してください。ここは本物の乾物がある場所です。この分野の大手の人々と、仕事の開始、勉強、仕事、転職に関するさまざまな問題を交換し、論文 + コードを共有します。毎日+ビデオ、交換を楽しみにしています!

9c7787185423f55a51e7fdd1bfc3469c.jpeg

(3) 【自動運転の心臓部】フルスタック技術交流会

The Heart of Autonomous Driving は、物体検出、セマンティック セグメンテーション、パノラマ セグメンテーション、インスタンス セグメンテーション、キー ポイント検出、車線境界線、物体追跡、3D 物体検出、BEV 認識、マルチセンサー フュージョン、 SLAM、光流推定、深さ推定、軌道予測、高精度地図、NeRF、計画制御、モデル展開、自動運転シミュレーションテスト、プロダクトマネージャー、ハードウェア構成、AI求人検索とコミュニケーションなど。

6eb5c5800a77693696a85712a1a2cb9d.jpeg

Autobot Assistant Wechat への招待を追加してグループに参加します

備考:学校/会社+方向+ニックネーム

おすすめ

転載: blog.csdn.net/CV_Autobot/article/details/131336169