GANet: 車線検出のためのキーポイントベースのグローバル アソシエーション ネットワーク (CVPR 2022)

免責事項: この翻訳は単なる個人的な研究記録です。

記事情報

まとめ

  車線検出は、車線の複雑なトポロジー形状を予測し、さまざまな種類の車線を同時に区別する必要がある難しいタスクです。初期の作業は、トップダウンのロードマップに従って、事前に定義されたアンカーをさまざまな形状の車線に回帰させますが、アンカーの形状が固定されているため、複雑な形状の車線に適応するのに十分な柔軟性がありません。最近、車線検出をキーポイント推定問題として定式化し、車線の形状をより柔軟に記述し、同じ車線に属する隣接するキーポイントを点ごとに徐々にグループ化し、後処理で取得できるようにすることを提案している研究もあります。このプロセスは非効率的で時間がかかります。この論文では、新しい観点から車線検出問題を定式化するための Global Association Network (GANet) を提案します。GANet では、各キーポイントが点ごとに拡張されるのではなく、車線の開始点に直接回帰されます。具体的には、キーポイントとそれに属する車線の関連付けは、相互依存することなく、車線の対応する原点からのオフセットをグローバルに予測することによって実行されます。これは、効率を大幅に向上させるために並行して実行できます。さらに、隣接するキーポイント間のローカル相関を適応的に捕捉してローカル情報をグローバルな関連付けに補足するレーン認識機能アグリゲーター (LFA) も提案します。2 つの人気のある車線検出ベンチマークに関する広範な実験により、私たちの方法が、高い FPS を備えた CULane で 79.63%、Tusimle データセットで 97.71% の F1 スコアを示し、以前の方法よりも優れていることが示されました。

1 はじめに

  自動運転 [10] は、学界と産業界の両方の研究者から大きな注目を集めています。自動運転システムは、走行中のクルマの安全を確保するために、クルマが道路上の車線に沿って走行し続ける必要があり、車線を正確に認識する必要があります。したがって、車線検出は自動運転システム、特に先進運転支援システム (ADAS) において重要な役割を果たします。

ここに画像の説明を挿入

図 1. (a) 事前定義されたアンカーを車線形状に回帰するアンカーベースのアプローチ。(b) キーポイントベースの方法では、キーポイントからその近傍までのオフセットを予測して、キーポイントを 1 つずつグループ化します。(c) GANet の図。各キーポイントと対応する車線の原点の間のオフセットを予測することで、各キーポイントをその車線に直接回帰します。(d) LFA モジュールの図。ローカル情報を補足するために各キーポイントをその近隣キーポイントに関連付けます。

  車線検出は、車両に搭載されたカメラで撮影された前方画像から、道路上の各車線の正確な形状を生成することを目的としています。車線の形状が細く、クラス識別が必要なため、車線検出のタスクを適切に定式化することが重要です。アンカーベースの物体検出方法 [22] に触発され、一部の作品 [10、25] は図 1a に示すトップダウン設計に従っています。物体検出と同様に、異なる向きの一連の直線がアンカーとして定義されます。アンカー ポイントと車線ポイント間のオフセットを予測することにより、アンカー ポイント上の点が車線境界線に回帰されます。次に、非最大抑制 (NMS) が適用され、最も高い信頼度で車線の境界線が選択されます。このアプローチは車線認識には効果的ですが、アンカーの形状が事前に定義されているため柔軟性に欠けます。強力な形状事前分布により、さまざまなレーン形状を記述する能力が制限され、これらの方法のパフォーマンスが最適化されません。

  複雑な形状の車線を柔軟に記述するために、Qu et al. [21] は、図 1b に示すように、ボトムアップ設計を採用したキーポイント推定および関連付け問題として車線検出を定式化することを提案しました。具体的には、レーンは、まばらな方法で均一にサンプリングされたキーポイントの順序付けられたセットによって表されます。各キーポイントは、隣接するキーポイント間の空間オフセットを推定することによって関連付けられます。このようにして、同じレーンに属するキーポイントが連続した曲線に繰り返し統合されます。キーポイントベースの方法は車線の形状に柔軟性がありますが、各ステップで 1 つのキーポイントだけをその属する車線に関連付けることは非効率的で時間がかかります。さらに、全体的なビューが欠如しているため、キーポイントのポイントごとの拡張ではエラーが蓄積する傾向があります。特定のキーポイントが誤って関連付けられると、車線の残りの部分の推定は失敗します。

  上記の制限を克服するために、各キーポイントが属するレーンに直接回帰する新しいキーポイントベースの観点からレーン検出問題を定式化し、これに基づいてグローバル アソシエーション ネットワーク (GANet) を提案します。新しいパイプラインの。図 1c に示すように、各車線の開始点は一意であり、曖昧さなく簡単に決定できます。キーポイントを正しく関連付けるために、キーポイントから対応する原点までのオフセットを推定します。おおよその原点が同じ近傍にあるキーポイントは同じ車線境界線インスタンスに割り当てられるため、キーポイントは異なるグループに分割されます。以前のキーポイントベースの方法 [21] とは異なり、キーポイントが属するレーンへの割り当ては互いに独立しており、並列実装が可能になり、後処理の効率が大幅に向上します。さらに、各キーポイントはグローバル ビューを所有するため、キーポイントの関連付けは蓄積された単一ポイント エラーに対してより堅牢になります。

  同じ車線に属するキーポイントは後処理で統合されますが、連続した曲線を得るには隣接するポイント間の相関性を確保することが重要です。この目的を達成するために、隣接するキーポイント間の相関を強化するために、Lane-Aware Feature Aggregator (LFA) という名前のローカル情報集約モジュールを開発しました。車線の細長い形状に対応するために、車線上の局所領域が毎回サンプリングされるように、隣接点へのオフセットを予測することによって標準 2D 変形可能畳み込み [3] のサンプリング位置を変更します。このようにして、各キーポイントの特徴が他の隣接ポイントと集約されて、より代表的な特徴が取得されます。さらに補助損失を追加して、各キーポイントでの予測オフセットの推定を容易にします。当社の LFA モジュールは、グローバル関連付けプロセスを補完して、レーン検出などの高密度ラベリング タスクに不可欠なローカルおよびグローバル ビューを可能にします。

  私たちの貢献は次のように要約されます。

  • 我々は、新しいキーポイントベースの観点から車線検出を定式化するための新しい Global Association Network (GANet) を提案します。これは、各キーポイントをその属する車線に直接回帰します。私たちの知る限り、私たちはグローバルな方法でキーポイントを回帰した最初の企業であり、ローカル回帰よりも効率的です。

  • 隣接するキーポイント間の相関を強化し、ローカル情報を補完するために、Lane-Aware Feature Aggregator (LFA) というローカル情報集約モジュールを開発します。

  • 私たちが提案する GANet は、2 つの一般的な車線検出ベンチマークにおいて、より高速で最先端のパフォーマンスを達成します。これは、パフォーマンスと効率の優れたトレードオフと、私たちのグローバル アソシエーション定式化の大きな可能性を示しています。

2.関連作品

2.1 車線検出方法

  車線検出の目的は、正確な車線の形状を取得し、それらを区別することです。レーンモデリングの方法に応じて、現在の深層学習ベースの手法はいくつかのカテゴリに大別できます。このセクションでは、これらのメソッドを個別に説明します。

  セグメンテーションベースのアプローチセグメンテーションベースの方法では、車線の境界線の検出をピクセルごとの分類問題としてモデル化し、各ピクセルを車線領域または背景として分類します [6、8、16、18]。異なる車線境界線を区別するために、SCNN [18] は異なる車線境界線を異なるカテゴリとして扱い、車線検出をマルチカテゴリのセグメンテーション タスクに変換します。行と列の間でメッセージを配信できるようにするために、スライスごとの CNN 構造も提案されています。実際のリアルタイム要件を満たすために、ENet-SAD [6] はセルフアテンション蒸留メカニズムをコンテキスト集約に適用して、軽量のバックボーンの使用を可能にします。LaneNet [16] は、異なるレーン表現を採用し、レーン検出をインスタンスのセグメンテーション問題として定式化します。セグメンテーション結果をレーン インスタンスに分解するために、バイナリ セグメンテーション ブランチと埋め込みブランチが含まれています。LaneNet とは異なり、私たちの方法では、特徴を埋め込む代わりにオフセットを使用して各車線をクラスター化するため、より効率的で時間がかかりません。

  検出ベースのアプローチこのアプローチは通常、車線境界線を予測するためにトップダウンのアプローチを採用します。その中で、アンカーベースの方法 [10、25、28] は、線形アンカーを設計し、サンプリングされたポイントと事前定義されたアンカー ポイントの間のオフセットを回帰します。次に、非最大抑制 (NMS) が適用され、最も高い信頼度で車線の境界線が選択されます。LineCNN [10] は、アンカーのセットとして特定の方向を持つ画像境界から発射される直線光線を使用します。Curve NAS [28] はアンカーを垂直線として定義し、さらにニューラル アーキテクチャ検索 (NAS) を使用してより良いバックボーンを検索します。LaneATT [25] は、よりグローバルな情報を集約するためのアンカーベースのプーリング方法とアテンション メカニズムを提案しています。別のアプローチ [14、20] では、車線検出を行ごとの分類問題として定式化します。モデルは行ごとに、考えられる車線区分線の位置を予測します。

  キーポイントベースのアプローチ人間の姿勢推定に触発された作品では、車線検出をキーポイント推定および関連付けの問題とみなしているものもあります。PINet [9] は、積み重ねられた砂時計ネットワーク [17] を使用して、キーポイントの位置と特徴の埋め込みを予測します。特徴の埋め込み間の類似性に基づいて、異なるレーン インスタンスをクラスター化します。FOOLLANE [21] は、レーン上のポイントを取得するために、入力と同じ解像度でピクセル単位のヒートマップを生成します。同じレーン インスタンスに属するキーポイントを関連付けるために、ローカル幾何学構造も開発されています。私たちの GANet は、レーン全体をクラスタ化または再構築するために、特徴の埋め込みもローカルの関連付けも必要としない、より効率的な後処理アプローチを採用しています。各キーポイントは、その座標とオフセットを車線の開始点に平行に追加することによって、対応する車線を見つけます。

2.2 変形可能なモデリング

  従来の CNN は、畳み込み演算のグリッド状のサンプリング範囲が固定されているため、本質的に不規則な構造のモデリングに限定されています。この制限を克服するために、Dai et al. [3] は、ローカル領域内の情報を適応的に集約するための変形可能な畳み込みを提案しました。標準の畳み込みと比較して、サンプリング中に、追加の畳み込みによって取得された 2D オフセットが各空間位置に追加され、サンプリング グリッドの自由な変形が可能になります。学習されたオフセットを通じて、コンボリューションの受容野とサンプリング位置は、オブジェクトのランダムなスケールと形状に従って適応的に調整されます。変形可能なモデリングの精神は、物体検出 [30、34]、物体追跡 [33]、ビデオ理解 [2、29、31] などの多くのタスクに適用されています。RepPoints [30] はオブジェクトを点のセットとしてモデル化し、変形可能な畳み込みを使用してオブジェクトの中心までのこれらの点のオフセットを予測します。この変形可能なオブジェクト表現は、オブジェクト検出のための正確な幾何学的位置特定と、適応的な意味論的特徴抽出を提供します。[31] は、時空間情報を探索し、ビデオ超解像度の適応的な動きの理解を可能にする変形可能な 3D 畳み込みを提案しました。これらの方法とは異なり、当社の LFA モジュールは車線の長い構造に適応し、車線を意識した変形可能な畳み込みを介して特徴集約の範囲を各車線上の隣接するポイントに制限します。

3. 方法

  私たちが提案する Global Association Network (GANet) の全体的なアーキテクチャを図 2 に示します。入力として正面図画像が与えられると、CNN バックボーンと FPN [12] ネックを使用して、入力画像のマルチレベル視覚表現が抽出されます。特徴学習を改善するために、セルフ アテンション レイヤー [27] が背骨と首の間にさらに挿入され、豊富なコンテキスト情報が取得されます。デコーダでは、キー ヘッドとオフセット ヘッドを使用して信頼マップとオフセット マップがそれぞれ生成されます。どちらのヘッドも完全な畳み込み層で構成されています。さらに、キーポイント ヘッドの前に車線対応機能集約モジュールを設計して、隣接するキーポイント間の局所的な相関を強化し、連続した車線の生成に役立ちます。各レーン インスタンスについて、まずオフセット マップ上で 1 未満の値を持つ点を選択することにより、クラスターの重心としてその開始点を取得します。次に、信頼度マップとオフセット マップの組み合わせを使用して、同じ車線に属するキーポイントがサンプリングされた開始点の周囲にクラスター化され、完全な車線ラインが構築されます。

ここに画像の説明を挿入

図 2. GANet の全体的なアーキテクチャ。入力として正面図画像が与えられると、CNN バックボーン、それに続くセルフ アテンション レイヤー (SA) および FPN ネックを使用して、マルチスケールの視覚特徴が抽出されます。デコーダでは、キーポイント ヘッダーとオフセット ヘッダーを使用してそれぞれ信頼マップとオフセット マップが生成され、これらが結合されてキーポイントがグループにクラスター化され、各グループは車線境界線インスタンスを示します。LFA モジュールは、キー ポイント推定のために車線線上のローカル コンテキストをより適切にキャプチャするために、キー ノッズの前に適用されます。

3.1 グローバルキーポイントの関連付け

3.1.1 キーポイントの推定

入力画像が与えられると、I ∈ RH × W × 3 I∈\mathbb{R}^{H×W×3}RH × W × 3、GANet の目標は、レーンのセットL = { l 1 , l 2 , … , l N } L=\{l_1,l_2,...,l_N\} をL={ l12N}、ここでNNNはレーンの総数で、各レーン ラインはKKK 個のサンプリングされたキーポイントは次のように表されます。

ここに画像の説明を挿入

其中 p i j = ( x i j , y i j ) p^j_i=(x^j_i,y_i^j) pj×jyj) iiを意味しますiレーンのjjthj個のキーポイントの座標すべてのキーポイントを推定するために、信頼マップY ^ ∈ RH r × W r \hat{Y}∈\mathbb{R}^{\frac{H}{r}×\frac {W} を生成するキーポイントを開発します。 {r}}Y^RrH×rW、ここでrrrは出力ストライドです。信頼度マップは、各位置が車線上のキーポイントである確率を表します。図 2(a) に示すように、明るい場所ほど確率が高くなります。

  トレーニングフェーズでは、各レーンラインにKKがいますK 個のキーポイントがグラウンド トゥルース キーポイントとしてサンプリングされ、非正規化ガウス カーネルY yx = exp ( − ( x − x ~ ) 2 + ( y − y ~ ) 2 2 σ 2 ) Y_{yx} =exp(−\frac {(x−\チルダ{x})^2+(y−\チルダ{y})^2}{2σ^2})Yy x=e x p ( 2P _2( x バツ2 +(yy~)2)それらすべてを信頼度マップY ∈ RH r × W r Y ∈ \mathbb{R}^{\frac{H}{r}×\frac{W}{r}} に分解します。YRrH×rW, ここで、x ~ \チルダ{x}バツ~y ~ \チルダ{y}y~各キーポイントの座標、標準偏差σ σを示します。σ は入力のサイズに依存します。2 つのガウス マップ間に重複がある場合は、それらの間の要素ごとの最大値が取得されます。

  以下のように、ペナルティ付き焦点損失 [13] を使用して、キーポイント領域と非キーポイント領域間の不均衡を処理します。

ここに画像の説明を挿入

ここで、α αab bβは焦点損失のハイパーパラメータです。H ' × W ' H^' × W^ 'H×W'表示H r × W r \frac{H}{r}×\frac{W}{r}rH×rW下付き文字yx yxy x は、座標( x , y ) (x,y)( x ,y )

  出力ストライドrr以来r、入力イメージの点( xij , yij ) (x^j_i,y_i^j)( ×jyj)は位置( ⌊ xijr ⌋ , ⌊ yijr ⌋ ) (⌊\frac{x^j_i}{r}⌋,⌊\frac{y^j_i}{r}⌋) にマッピングされます(⌊rバツjryj⌋)、パフォーマンスが低下する可能性があります。この量子化誤差を考慮して、補償マップδ ^ yx \hat{δ}_{yx}d^y x、L1 損失をキーポイントの位置にのみ適用します。

ここに画像の説明を挿入

その中δ yx = ( xijr − ⌊ xijr ⌋ , yijr − ⌊ yijr ⌋ ) δ_{yx}=(\frac{x^j_i}{r}-⌊\frac{x^j_i}{r}⌋,\frac{ y^j_i}{r}-⌊\frac{y^j_i}{r}⌋)dy x=(rバツjrバツjryjryj⌋) は量子化補償マップの真の値を表します。わかりやすくするために、この部分は図 2 には示されていません。

3.1.2 原点復帰

異なる車線の境界線を区別するために、安定性と互いの最大マージンにより各車線インスタンスを一意に表す原点を使用することを提案します。開始点の絶対座標( sxi , syi ) (sx_i,sy_i)に直接戻るわけではありません。( s x私ははい_私は)の代わりに、各キーポイントをそのオフセットに回帰します。オフセットは次のように定義できます。

ここに画像の説明を挿入

したがって、 H r × W r × C \frac{H}{r}×\frac{W}{r}×C の  形状を生成できます。rH×rW×Cの真理オフセット マップO yx O_{yx}y x特に、添字 yx は位置( xij , yij ) (x^j_i,y_i^j)を示します。( ×jyj)、これは( ∆ xij , ∆ yij ) (∆x^j_i,∆y_i^j)( Δ ×jΔy _j)、他の位置の値はゼロです。C=2 には、それぞれ x 方向と y 方向のオフセットが含まれます。

  オフセット マップO ^ yx \hat{O}_{yx} を推定するには^y xでは、図 2 に示すように、オフセット ヘッダーを導入します。同様に、L1 損失は次のようにオフセット マップを制約するために使用されます。

ここに画像の説明を挿入

監視はキーポイントの位置にのみ適用され、残りは無視されます。

ここに画像の説明を挿入

図 3. レーン構築の概略図。(a) 信頼度マップから有効なキーポイントを選択します。( x , y ) (x,y)を使用( x ,y )を例として挙げます。(b) まず開始点( sx , sy ) (sx,sy)( s x sy ) (青い点) サンプリング用。残りのキーポイントは、予測されたオフセット(δ x , δ y ) (δx,δy)( δ x ,δy )を計算し、開始点の座標を( sx ' , sy ' ) = ( x , y ) + ( δ x , δ y ) (sx^ ',sy^ ')=(x,y)+( δx、δy)( s x「、はい_ _=( x ,y +( δ x ,δy ) (中空のドット)。(c) 開始点 (sx、sy) の近くを指すキーポイントがレーン全体にグループ化されます。

3.1.3 車線の構築

車線構築のパイプラインを図 3 に示します。これは、考えられるすべての車線ポイントの位置を取得し、それらを異なる車線インスタンスにグループ化することで構成されます。まずキーポイント信頼マップY ^ \hat{Y}に入りますY図3(a)に示すように、1×3の最大プーリング層が^に適用され、水平ローカル領域内の最大応答点が有効なキーポイントとして選択されます。次に、次のようにそれらをグループ化し、各レーンをキーポイントの順序付きリストとして記述します。

ここに画像の説明を挿入

ここで( sx , sy ) (sx,sy)( s x sy )はレーンの開始点を示します( xj , yj ) (x^j,y^j)( ×jyj )j ∈ [ 2 , K ] j∈[2,K]j[ 2 K ] が次のキーポイントです。

  各レーンの開始点を取得するには、オフセット マップ上で 1 未満の値を持つキーポイントを候補開始点として選択します。上記の基準に一致する複数のキーポイントが同じローカル領域内に存在する可能性があるため、一意性を確保するために領域の幾何学的中心点が選択されます。このようにして、すべてのレーン インスタンスとその開始点が事前に決定されます。

  次に、図 3(b) に示すように、キーポイントと対応する原点の間の推定オフセットに基づいて、残りのキーポイントをそのレーンに関連付けます。各キーポイントの推定車線境界線の開始点の座標は次のとおりです。

ここに画像の説明を挿入

其中 ( x , y ) (x,y) ( x ,y )は観測されたキーポイントの座標です、( δ x , δ y ) = O yx (δx,δy)=O_{yx}( δ x ,y )=y xセクション 3.1.2 で取得した対応するオフセットを示します。( sx ' , sy ' ) (sx^ ',sy^ ')の場合のみ( s x「、はい_' )( sx , sy ) (sx,sy)( s x sy )は、事前定義されたしきい値θ dis θ_{dis}未満ですです_ _のとき、キーポイント( x , y ) (x,y)( x ,y ) iiのみiレーンが関連付けられています。図 3(c) に示すように、同じ開始点の近くを指すキーポイントがグループ化されて、レーン全体が生成されます。上記のプロセスは、キーポイントの並列関連付けを保証するために行列演算によって実行されます。

3.2 レーン対応機能アグリゲーター

  従来の 2D 畳み込みは、固定されたグリッド状領域内のフィーチャをサンプリングしますが、これは車線の細長い形状を処理するのには適していません。Dai et al. [3] に触発され、レーン上の隣接ポイントから情報を適応的に収集して各キーポイントの局所特徴表現を強化するレーン対応特徴アグリゲーター (LFA) モジュールを提案します。LFA モジュールの図を図 4 に示します。特定のキーポイントを例に挙げると、最初に畳み込み層を使用して、次のようにそのキーポイントと同じレーン上の囲まれた M キーポイントの間のオフセットを予測します。

ここに画像の説明を挿入

其中, p i p_i p私はiiを示しますi 個のキーポイントF ( pi ) F(p_i)F ( p私は) iiを意味しますi時間キーポイントの特徴表現 ∆ P i = { ∆ pim ∣ m = 1 , … , M } ∈ R 2 M ∆P_i=\{∆p^m_i|m=1,...,M\} ∈\mathbb {R}^{2M}ΔP _私は={ Δ pメートル∣m _=1 }R2 M は予測オフセットを表します。次に、隣接する点の特徴を変形可能な畳み込みによって統合して、iii 個のキーポイントのコンテキスト集約は次のとおりです。

ここに画像の説明を挿入

其中 w m , m = 1 , . . . , M w_m,m=1,...,M wメートルメートル=1 ... M は畳み込みの重みです( ⋅ ) ( · )( ) は乗算を意味します。

ここに画像の説明を挿入

図 4. LFA モジュールの概略図。赤い点は、観察されたキーポイントを示します。まず、赤い点とその隣接するキーポイント (青) の間のオフセットを予測し、次にこれらのキーポイントの特徴を収集して赤い点のコンテキストを強化します。

  車線の局所的な形状を学習する LFA の能力を強化するために、オフセット∆ P i ∆P_iを監視する補助損失をさらに導入します。ΔP _私は私たちはそうします。i 個のキーポイントと対応する車線上のキーポイントの値は、 ∆ G i = { ∆ gik ∣ k = 1 , … , K } ∆G_i=\{∆g_i^k|k=1 ,… として表されます。 、K\}ΔG _私は={ Δg _k=1 K},这是用 ∆ g i k = g i k − p i ∆g_i^k=g_i^k−p_i Δg _=gp私は計算されます。ここで、gik g_i^kgと同じですiキー ポイントは同じ車線のkk 番目にありますk 個のキーポイントのグラウンドトゥルース座標。

図 5 に示すように、 Δpi Δp_i  である必要があります。Δp _私は ∆ g i ∆g_i Δg _私は間の一致。マッチングコスト σ が最も低い割り当てσを検索します。p

ここに画像の説明を挿入

式中、L match = L 2 ( ∆ pim , ∆ gi σ ( m ) ) \mathcal{L}_{match}=L_2(∆p^m_i,∆g_i^{σ(m)})Lマッチ_ _ _=L2( Δp _メートルΔg _σ ( m )以前の研究 [1、23] に基づいて、最適な割り当てを効率的に計算するためにハンガリーのアルゴリズムが採用されています。次に、SmoothL1 損失を適用して、隣接するキーポイントの予測を監視します。

ここに画像の説明を挿入

ここで、K は各レーン ライン上のキーポイントの数を表し、N はレーン ラインの数を表し、M はサンプリングされた隣接するキーポイントの数を表します。

  総損失関数は、さまざまな損失と対応する係数の組み合わせです。

ここに画像の説明を挿入

ここに画像の説明を挿入

図 5. 予測された点とそのグランド トゥルースの間の一致の図。赤い点は観察されたキーポイントです。青い点は、隣接するキーポイントの予測された位置です。緑色の点は、車線線上の隣接するキーポイントのグラウンド トゥルースの位置です。

4. 実験

  このセクションでは、最初に私たちの方法の実験設定を紹介します。各データセットの結果については、次のサブセクションで説明します。各モジュールのアブレーション実験は最後のサブセクションに示されています。

4.1 実験のセットアップ

4.1.1 データセットと評価指標

私たちは、CULane [18] と TuSimple [26] を含む 2 つの一般的なレーン検出ベンチマークで実験を行っています。

  CULane : CULane データセットには、都市や高速道路のシーンを含む 88,880 個のトレーニング画像と 34,680 個のテスト画像が含まれています。テスト画像は 9 つの異なるシーンに分割されています。F1 メトリックは、IoU に基づく唯一の評価メトリックです。IoU が 0.5 より大きい予測レーンは真陽性 (TP) と判断され、それ以外の場合は偽陽性 (FP) または偽陰性 (FN) と判断されます。F1 メトリクスは、精度と再現率の調和平均として定義されます。

  TuSimple : TuSimple は、トレーニング用の 3626 枚の画像とテスト用の 2782 枚の画像で構成される実際の高速道路データセットです。TuSimple データセットの主な評価指標は精度であり、その式は次のとおりです。

ここに画像の説明を挿入

ここでC は C_{clip} をクリップしますCクリップ_ _ _モデルによって正しく予測されたポイントの数です、S Clip S_{clip}Sクリップ_ _ _クリップ (またはイメージ) 内のポイントの総数です。予測された点は、グラウンド トゥルース ポイントから 20 ピクセル以内にある場合にのみ正しいとみなされます。85% を超える精度で予測されたレーンは、真陽性とみなされます。次の実験では F1 スコアも報告します。

ここに画像の説明を挿入

表 1. GANet のさまざまなバージョンの詳細。

4.1.2 実装の詳細

ResNet-18、ResNet-34、および ResNet-101 [5] をバックボーンとして選択し、それぞれ GANet-S、GANet-M、および GAN​​et-L と呼ばれる 3 つの異なるバージョンの GANet を形成します。各バージョンの詳細を表 1 に示します。トレーニングとテストの段階では、まず入力画像のサイズを 800×320 に変更します。LFA のサンプリング ポイントの数は M=9 に設定されます。損失重みはλ point = 1.0 λ_{point}=1.0に設定されます。ぽいんと_ _ _=1.0λ quant = 1.0 λ_{quant}=1.0質問_ _ _=1.0λ オフセット = 0.5 λ_{オフセット}=0.5オフセット_ _ _=0.5λ aux = 1.0 λ_{aux}=1.0UX=1.0式 2 のハイパーパラメータ α と β は、それぞれ 2 と 4 に設定されます。最適化には、Adam オプティマイザーと初期学習率 0.001 のポリ学習率減衰を使用します。Tusimple と CULane については、GPU あたり 32 のバッチ サイズで、それぞれ 300 と 40 エポックでトレーニングします。データ拡張は、ランダムなスケーリング、トリミング、水平方向の反転、ランダムな回転、色のジッターなどを含むトレーニング段階で適用されます。テスト段階では、キーポイントのしきい値を 0.4 に設定し、キーポイント θ_{dis} に関連付けられた θ dis をです_ _4に設定します。トレーニングとテストは両方とも Tesla-V100 GPU で実行されます。

4.2 定量的結果

4.2.1 キュレーンの結果

CULane テスト セットの結果を表 2 に示します。当社の GANet-L は、CULane データセット上で 79.63% の F1 スコアと 63 FPS のフレーム レートという最先端の結果を達成しました。これは、LaneATT-ResNet122 などの同様にスケールされたモデルをパフォーマンスと点で大幅に上回っています。スピードの利点。別のキーポイントベースの手法である FOLLane ERF [21] と比較すると、当社の GANet-S は F1 スコア 78.79% という同等のパフォーマンスを達成しますが、実行速度は 3.8 倍であり、パフォーマンスと効率の間の優れたトレードオフを示しており、速度の利点を示しています。私たちの世界的な協会の形成。さらに、私たちの方法は、6 つのシナリオ、特に曲線シナリオで最高の F1 スコアを達成しました。この場合、私たちの GANet-L は 77.37% を達成し、以前の最先端の手法である ERF-E2E [32] を 5% 以上上回っています。これは、複雑な車線アライメントの記述における私たちの方法の優位性を示しています。

4.2.2 TuSimple の結果

TuSimple テスト セットの比較結果を表 4 に示します。当社の GANet-S は他のすべての方法よりも優れたパフォーマンスを発揮し、高い FPS で 97.71% という最高の F1 スコアを達成します。特に、GANet-S は、同等の速度と高いマージンで UFast-ResNet34 および LaneATT-ResNet34 を上回っており、グローバル アソシエーションの定式化の大きな可能性を示しています。LaneATT [25] と同様に、モデル容量の拡大は必ずしもパフォーマンスの向上につながるわけではありません。これは、Tusimple データセットの数が少なく、シーンが 1 つであることが原因である可能性があります。結果は飽和しており、モデルが大きいと過剰適合の問題が発生する可能性があります。

ここに画像の説明を挿入

表 2. CULane テスト セットに関する最先端のメソッドとの比較。評価指標は、IoU しきい値 0.5 の F1 スコアです。クロスオーバー シナリオの場合は、FP のみが表示されます。

ここに画像の説明を挿入

図 6. LFA を使用しない GANet の可視化結果。最初の列は入力画像です。2 列目と 3 列目は、LFA を使用しない予測点信頼度マップと車線ラインです。4 列目と 5 列目は、LFA を使用した予測ポイント信頼度マップと車線ラインです。最後の列はグラウンド トゥルース レーン ラインです

ここに画像の説明を挿入

表 3. LFA モジュールのアブレーション研究

4.2.3 アブレーション研究

私たちが提案する LFA モジュールの特性を調査するために、CULane データセットでアブレーション研究を実施します。以下のすべての実験は、GANet の小規模バージョンに基づいています。結果を表3に示す。最初の行は、LFA モジュールを使用しないベースライン方法を示しています。2 行目では、LFA モジュールが補助損失なしで GANet に統合されています。最後の行は、GANet 全体の結果を示しています。

  最初の 2 行から、補助損失のない LFA モジュールは、コンテキストの柔軟な統合により、車線境界線の検出に効果的であることがわかります。最後の 2 行を比較すると、補助損失が LFA モジュールにとって重要であることもわかります。これにより、LFA は車線境界線上の重要な情報に焦点を当てることができます。視覚的な分析についてはセクション 4.3 を参照してください。

4.3 定性的結果

  LFA を使用しない定性的結果を図 6 に視覚化します。列 2 と 4 は、それぞれ LFA を使用しない場合と使用する場合の信頼マップを視覚化したものです。最初の行の結果に示されているように、予測された車線ポイントが相互に強化し合うため、車両が渋滞している場合でも、LFA モジュールは正しい予測を行います。2 行目と 3 行目の結果から、LFA モジュールは世界的な注目によってもたらされる可能性のあるバックグラウンド ノイズを抑制できると結論付けることもできます。

  LFA モジュールの特性を直感的に調べるために、予測された特徴集約ポイントを図 7 に視覚化します。最初の行は、一般的な直線車線の状況を示しています。補助損失を追加することにより、LFA モジュールは車線境界線の周囲の集合点を予測できます。一方、補助損失がない場合、予測される集合点は不規則になります。最後の 2 行は、曲線車線の場合の集約ポイントを示しています。結果は、LFA モジュールが車線境界線の局所構造の理解において堅牢であることを示しています。この機能は、車線境界線の特徴を強化し、背景ノイズを抑制するのに役立ちます。

ここに画像の説明を挿入

表 4. TuSimple テスト セットの最先端のメソッドとの比較。

ここに画像の説明を挿入

図 7. 補助損失なしの LFA の視覚化結果。赤い点は観測点です。緑色の点は、予測された集約ポイントです。水色の点は、車線上のグラウンド トゥルース ポイントです。

5. 結論と考察

  この論文では、新しい観点から車線検出問題を定式化するための Global Association Network (GANet) を提案します。GANet では、各キーポイントが点ごとに拡張されるのではなく、車線の開始点に直接回帰されます。キーポイントとキーポイントが属する車線の境界線との関連付けは、車線の対応する開始点からのオフセットをグローバルに予測することによって行われ、効率が大幅に向上します。さらに、隣接するキーポイント間のローカル相関を適応的にキャプチャしてローカル情報を補足するレーン認識機能アグリゲーター (LFA) を提案します。実験結果は、私たちの GANet が以前の方法よりも高速に優れていることを示しています。

  限界私たちの方法の制限は、出力ストライドが 1 に設定されている場合、オフセットの絶対値が大きいため、開始点へのオフセットの回帰が困難になる可能性があることです。将来的には、複数レベルのオフセットで回帰して回帰を緩和することで、この問題を解決したいと考えています。

6. 謝辞

  この研究は、中国国家自然科学財団 (6202207862121002)、国家防衛基礎科学研究プログラム (JCKY2020903B002)、および SenseTime Group Co., Ltd. によって部分的に支援されました。

参考文献

[1] ニコラス・カリオン、フランシスコ・マッサ、ガブリエル・シンナエブ、ニコラス・ウスニエ、アレクサンダー・キリロフ、セルゲイ・ザゴルイコ。トランスフォーマーを使用したエンドツーエンドの物体検出。ECCV、2020 年。5
[2] Jingwen Chen、Yingwei Pan、Yehao Li、Ting Yao、Hongyang Chao、および Tao Mei。ビデオキャプション用の時間的変形可能な畳み込みエンコーダ/デコーダ ネットワーク。AAAI、2019 年。3
[3] Jifeng Dai、Haozhi Qi、Yuwen Xiong、Yi Li、Guodong Zhang、Han Hu、および Yichen Wei。変形可能な畳み込みネットワーク。ICCV にて、2017 年。2、3、5
[4] Mohsen Ghafoorian、Cedric Nugteren、N´ora Baka、Olaf Booij、Michael Hofmann。El-gan: レーン検出のための損失駆動型敵対的生成ネットワークの埋め込み。欧州コンピュータビジョン会議 (ECCV) ワークショップ議事録、2018 年 8
[5] 何開明、張祥宇、任少清、孫建。画像認識のための深層残差学習。CVPR にて、2016 年。6
[6] Yuenan Hou、Zheng Ma、Chunxiao Liu、および Chen Change Loy。自己注意蒸留による軽量レーン検出 CNNS の学習。ICCV、2019。2
[7] Yuenan Hou、Zheng Ma、Chunxiao Liu、および Chen Change Loy。自己注意蒸留による軽量レーン検出 CNN の学習。ICCV にて、2019 年 7、8
[8] Seokwoo Jung、Sungha Choi、Mohammad Azam Khan、Jaegul Choo。空間埋め込みを最適化することで軽量の車線検出を目指します。ECCVW、2020. 2
[9] コ・ヨンミン、イ・ヨングァン、ショアイブ・アザム、ファルジン・ムニル、ムング・チョン、ヴィトルド・ペドリチ。車線検出のためのキー ポイント推定とポイント インスタンス セグメンテーション アプローチ。高度道路交通システムに関する IEEE トランザクション、2021 年。3
[10] Xiang Li、Jun Li、Xiaolin Hu、および Jian Yang。Line-cnn:回線提案ユニットによるエンドツーエンドの動線検出。高度道路交通システムに関する IEEE トランザクション、2019 年 1、3
[11] Xiang Li、Jun Li、Xiaolin Hu、および Jian Yang。Line-cnn: 回線提案ユニットによるエンドツーエンドの動線検出。高度道路交通システムに関する IEEE トランザクション、2019 年。8
[12] Tsung-Yi Lin、Piotr Dollar、Ross Girshick、Kaiming He、Bharath Hariharan、および Serge Belongie。物体検出のための機能ピラミッド ネットワーク。CVPR にて、2017.3
[13] ツン・イー・リン、プリヤ・ゴヤル、ロス・ガーシック、カイミン・ヘ、ピョートル・ドルアール。密集した物体検出の焦点損失。ICCV、2017 年。4
[14] Lizhe Liu、Xiaohao Chen、Siyu Zhu、および Ping Tan。Cond-lanenet: 条件付き畳み込みに基づく上から下のレーン検出フレームワーク。ICCV にて、2021 年。3
[15] Ruijin Liu、Zejian Yuan、Tie Liu、および Zhiliang Xiong。変圧器を使用したエンドツーエンドの車線形状予測。WACV にて、2021 年。8
[16] Davy Neven、Bert De Brabandere、Smatatios Georgoulis、Marc Proesmans、Luc Van Gool。エンドツーエンドのレーン検出に向けて: インスタンス セグメンテーション アプローチ。IEEE Intelligent Vehicles Symposium、Proceedings、2018. 2
[17] Alejandro Newell、Kaiyu Yang、Jia Deng。人間の姿勢推定のための積み重ねられた砂時計ネットワーク。ECCV にて、2016.3
[18] パン・シンガン、シー・ジャンピン、ルオ・ピン、ワン・シャオガン、タン・シャオオウ。Spatial as deep: 交通シーンを理解するための空間 CNN。AAAIにて、2018年。2、6、7、8
[19] ジョナ・フィリオン。Fastdraw: 逐次予測ネットワークを適応させることで、車線検出のロングテールに対処します。CVPR にて、2019 年 7、8
[20] Zequn Qin、Huanyu Wang、および Xi Li。超高速の構造認識ディープレーン検出。ECCV、2020 年。3、7、8
[21] Zhan Qu、Huan Jin、Yang Zhou、Zhen Yang、および Wei Zhang。ローカルに焦点を当てる: キー ポイントを介してボトムアップで車線マーカーを検出します。CVPR にて、2021 年。2、3、6、7、8
[22] Shaoqing Ren、Kaiming He、Ross Girshick、および Jian Sun。r-cnn の高速化: 領域提案ネットワークによるリアルタイムの物体検出に向けて。神経情報処理システムの進歩、2015. 1
[23] ラッセル・スチュワート、ミハイロ・アンドリルカ、アンドリュー・Y・ン。混雑したシーンでのエンドツーエンドの人物検出。CVPR にて、2016 年。5
[24] ルーカス・タベリーニ、ロドリゴ・ベリエル、チアゴ・M・パイシャオ、クロディーヌ・バデュエ、アルベルト・F・デ・ソウザ、チアゴ・オリベイラ=サントス。Polylanenet: 深い多項式回帰によるレーン推定。ICPR にて、2020 年。8
[25] ルーカス・タベリーニ、ロドリゴ・ベリエル、チアゴ・M・パイシャオ、クロディーヌ・バデュエ、アルベルト・F・デ・ソウザ、チアゴ・オリベイラ=サントス。車線から目を離さない: リアルタイムの注意誘導型車線検出。CVPR では、2021 年。1、3、7、8
[26] TuSimple。Tusimple 車線検出ベンチマーク、2017。 https://github. com / TuSimple / tusimple -ベンチマーク、2017. 6
[27] アシシュ・バスワニ、ノーム・シェイザー、ニキ・パルマー、ヤコブ・ウスコレイト、ライオン・ジョーンズ、エイダン・N・ゴメス、ウカシュ・カイザー、イリア・ポロスキン。必要なのは注意力だけです。神経情報処理システムの進歩、2017 年。3
[28] Hang Xu、Shaoju Wang、Xinyue Cai、Wei Zhang、Xiaodan Liang、および Zhenguo Li。Curvelane-nas: レーンに依存したアーキテクチャ検索と適応ポイント ブレンディングを統合します。ECCV、2020 年 3、7
[29] Xiangyu Xu、Muchen Li、Wenxiu Sun。画像とビデオのノイズ除去のための変形可能カーネルを学習します。arXiv プレプリント arXiv:1904.06903、2019. 3
[30] Ze Yang、Shaohui Liu、Han Hu、Liwei Wang、および Stephen Lin。Reppoints: オブジェクト検出のための点セット表現。ICCV にて、2019.3
[31] シンイー・イン、ロングアン・ワン、インキアン・ワン、ウェイドン・シェン、ウェイ・アン、ユラン・グオ。ビデオ超解像度のための変形可能な 3D コンボリューション。IEEE Signal Processing Letters、2020. 3
[32] Seungwoo Yu、Hee Seok Lee、Heesoo Myon、Sungrack Yun、Hyoungwoo Park、Janghun Cho、および Duck Hoon Kim。行ごとの分類によるエンドツーエンドのレーン マーカー検出。コンピュータ ビジョンおよびパターン認識ワークショップに関する IEEE 会議議事録、2020 年。6、7、8
[33] Yuechen Yu、Yilei Xiong、Weilin Huang、および Matthew R Scott。視覚オブジェクト追跡のための変形可能なシャム注意ネットワーク。CVPR、2020 年。3
[34] Xizhou Zhu、Weijie Su、Lewei Lu、Bin Li、Xiaogang Wang、および Jifeng Dai。Deformable detr: エンドツーエンドの物体検出用の変形可能トランス。ICLR にて、2020.3

おすすめ

転載: blog.csdn.net/i6101206007/article/details/132133155
おすすめ