自動運転のための目標ベースの解釈可能な予測および計画戦略

まとめ:

この論文では、合理的逆計画法による物体認識とマルチモーダル軌道予測の方法を紹介します。物体認識と MCTS 計画を組み合わせることにより、自車両用に最適化された計画が生成されます。

最近普及しているシャドウモードは、実際にはデータ収集を通じて人間の運転習慣に応じた自動運転システムのインタラクションプロセスを継続的にシミュレートしています。開発者にとって、設計と実装で調整された制御パラメータで社会的に適合した自動運転を継続的にシミュレーションして実現するには、人間のドライバーが正常かつ正しく対話する方法を再考する必要があります。

実際、自動運転に真に効果的な対話型制御機能を提供する方法の核心は、次の一連の基本的な質問に対する答えを探すことです。

まず第一に、実際の道路走行において考慮する必要があるシーンインタラクションプロセスとは何でしょうか? さまざまなシーンのインタラクションの長所と短所をどのように評価すればよいでしょうか? 合理的で正しいシーンのインタラクション動作をモデル化するにはどうすればよいでしょうか? モデリングの結果をその後の開発プロセスにどのように適用するか?

上記の質問に答えるには、複雑な交通シーンにおける車両間の動的な相互作用の原理と傾向を理解し、環境目標の行動や反応に対する信念や期待を利用してさまざまな社会的運転行動を生成し、対応する移動目標を予測する必要があります。シーン未来の状態は、安全なインテリジェント車両運転挙動の構築を最大限に高め、その後、挙動予測と潜在的な衝突プロセスの対応する検出能力を向上させ、最終的に開発用の現実的なシミュレーション運転シミュレーターを作成できます。

1.説明可能な運転行動を定義する方法

予測は、ある程度、高度な自動運転システムで観察された軌跡の解釈可能性を中心に構築する必要があります。プロファイリングとデバッグ。これは、自動運転システムの信頼性を高める方向に進み、システムの意思決定能力を証明する鍵となります。自車両は青で表示され、棒グラフは非自車両の目標確率を示します。各ゴールについて、ゴールに到達する可能性が最も高い予測軌道が最大 2 つ表示され、その表現幅は確率に比例します。ここでの解釈可能性とは、対象車両の実際の挙動に関して自車両が行うすべての予測が解釈可能性と合理性分析を備えていることを意味する。例えば、以下の4つの典型的な自動運転シナリオでは、それぞれ異なる説明指示を与えることができます。

(a) シナリオ 1: T 字路での衝突回避のための車線変更                      (b) シナリオ 2: 交差点

(c) シナリオ 3: 衝突を避けるためにロータリーから車で出る (d) シナリオ 4: 複雑な信号機         

(a)S1:自車両目標は前方の青色目標である。車両 V1 は自車線上にあり、左から右に車線変更し、自車の予測軌道から外れると自動運転制御が終了します。衝突回避には大幅な減速が必要なため、自車両は減速を避けるために車線変更を決定する場合があります。V1の目的が東に行くことであれば、車線変更は無理があるからだ。

(b)S2:自車両目標は前方の青色目標である。車両V1は交差点に東から接近しており、車両V2は西から接近している。V1 が交差点に近づき、速度を落とし、曲がるのを待つと、目的が左折または直進である場合に停止するのは不合理であるため、自車両は V1 が右折するだろうとの信念を大幅に高めます。エゴ カーは、V1 の目標が北に行くことであると認識しているため、V1 は V2 が通過するまで待機すると予測し、エゴ カーに道路に出るチャンスを与えます。

(c) S3:エゴターゲットは緑色のターゲットです。V1 がロータリーの内側車線から外側車線に変更して速度を下げると、自車両は V1 が南出口を出ると予測します。これは、その目標を達成するための合理的な行動方針であるためです。このようにして、V1 がまだロータリーにある間に、自車両はロータリーに進入します。

(d) S4:自車両のターゲットは紫色のターゲットです。信号のある交差点で 2 台の車が停止し、車両 V1 が後方から接近し、車両 V2 が反対方向から横断します。V1 が速度ゼロに達すると、ターゲット生成機能によって V1 の現在の位置に停止ターゲット (オレンジ色) が追加され、北/西のターゲットでは停止が不合理であるため、このターゲット分布はそこに向かって移動します。

2.本論文で提案する車両軌跡予測手法

前文の分析に基づいて、他の車両の意図と走行軌跡を予測する能力は自動運転の重要な課題であると言えます。まず第一に、運転シーンにおけるこのような結合されたマルチエージェントのインタラクションは、環境内の移動物体の傾向を予測する能力を強化し、迅速かつ正確な予測を行うことができる一種の限られた観測データであるため、これは問題は非常に複雑になるでしょう。この文脈で予測を行うため、自動運転研究における標準的なアプローチは、車両が車線追従、車線変更、方向転換、停止など、限られた数の異なる高度な操作の 1 つを使用していると想定することです。

最近の深層学習ベースの手法は、自動運転において驚くべき結果を示しています。これらの予測モデルは、車両のセンシング (ビデオ、ライダー、レーダーなど) を含むデータ収集活動を通じて利用可能になった大規模なデータセットでトレーニングされます。

車両の将来の運転動機を予測するには、その車両が過去の運転経路を実行しているのか、意図した経路を変更しているのか、その目的を推論する必要があります。そのためには、将来の運転動機と軌道を予測するために他の車両の目標を知る必要があります。将来の特定の期間内で正確な計画を立てるのに役立ちます。したがって、この推論は保守的な自動運転問題の解決に役立つでしょう。

ここでは、分類器を使用して、観察された運転軌跡に基づいて現在の車両が実行する必要がある操作を予測する必要があります。このアプローチの制限は、他の車両の現在の動機のみを検出できるため、そのような予測プランナーの使用は、検出された動きのタイムスケールに事実上制限されることです。もう 1 つのアプローチは、他の車両に可能な目標の限られたセット (道路出口など) を割り当て、車両の観察されたローカル状態に基づいて各目標への完全な軌道を計画することです。このアプローチは長期的な予測を生成できますが、車両の目標について信頼性の高い予測を行うためには、生成された軌道が車両に比較的厳密に一致する必要があるという点で制限があります。

この論文では、「合理的逆計画」(つまり、逆仮定) を使用して他の車両のターゲットを特定する、自動運転のための統合予測および計画システムについて説明します。ターゲット認識では、モンテカルロ ツリー検索 (MCTS) アルゴリズムを使用して、自車両に最適な運転戦略を計画します。逆計画と MCTS は、妥当なアクション プランを構築する手段として、定義された演習とマクロ アクションの共有セットを利用します。都市部の運転シナリオのシミュレーション評価では、このシステムが他の車両物体の識別に対して堅牢であり、車両が運転時間を大幅に短縮する重要な機会を活用できることが実証されました。いずれの場合も、システムの予測と決定を正当化するための直感的な説明を出力する必要があります。

この目的を達成するために、オブジェクト動作分析に基づく解釈可能な予測および計画 (IGP2) を使用して、限られた空間での動作分析の計算上の利点を活用することで、操縦シーケンスの計画および予測方法を適切に拡張できます。これは、モンテカルロ ツリー検索 (MCTS) を使用して他の車両オブジェクトを識別し、自車両の最適な行動軌道を計画する合理的逆計画法を新たに統合することによって実現されます。実際には、そのような最適な軌道の予測は、逆計画と MCTS によって実現されます。これは、定義された操作の共有セットを利用して、所定のメトリックに関して計画が最適であるべきであるという合理性の原則によって説明される動作計画を構築することです。

3. IGP2: 解釈可能な目標ベースの予測と計画

予測方法全体は 2 つの仮定に基づいています。まず、各車両は、一連の可能な目標の中から何らかの (未知の) 目標に到達しようとします。同時に、各車両は、定義された操作の限られたライブラリに従って、対応する計画を生成します。

私たちが提案する IGP2 システムのコンポーネントの概要を以下の図に示します。

高レベルでは、解釈可能な行動予測力 IGP2 は、最適な自車両運転ポリシー π* を近似し、次のように定義されます。非自車両の状況ごとに、その可能な目標を生成し、その車両の各目標を逆計画します。各非自車両の最終目標確率と予測軌道は、モンテカルロ ツリー検索 (MCTS) アルゴリズムのシミュレーション プロセスによって提供される情報から生成されます。このプロセスには、現在の目標に向けた自車両の最適な操縦計画が組み込まれています。逆計画および MCTS で必要な効率的な検索機能を維持するには、コンテキスト情報を使用してこれらの操作を柔軟に接続する必要があります。

この記事では、上図のこれらのコンポーネントがどのように生成されるかを次のセクションで詳しく紹介します。

A. 行動予測

スマート運転車両の動作を予測および分析する場合、事前にいくつかの動作の仮定を立てる必要があります。たとえば、各車が車線追従、左/右車線変更、左/右折、道を譲る、停止のいずれかのアクションを実行していると仮定できます。各操縦パラメータ ω は、適用性と終了条件を指定します。たとえば、左車線変更は、同じ進行方向の車両の左側の車線にのみ適用され、車両が新しい車線に到達し、その方向が車線と一致すると終了します。

一部のアクションには自由なパラメーターがあります。たとえば、follow-lane には、いつ終了するかを指定するパラメーターがあります。該当する場合、自動車がたどるローカル軌道の指定は si 1:n として表現できます。これには、グローバル座標系の基準経路と経路に沿った目標速度が含まれます。説明のために、si が si と同じ表現とインデックス付けを使用すると仮定しますが、通常はそうではありません (たとえば、 s は時間ではなく縦方向の位置によってインデックス付けでき、時間インデックスに補間できます)。この時点で、基準経路は道路トポロジから抽出された点の集合に適合するベジェ スプライン関数によって生成され、目標速度はドメインライク ヒューリスティックを使用して設定されます。

B. マクロアクション

マクロ アクションは、スマート カーの一般的な操作シーケンスを指定し、道路レイアウトなどのコンテキスト情報に従って自動車の動きの自由パラメータを自動的に設定します。次の表は、システムで使用されるマクロ アクションを示しています。マクロアクションの適用条件は、マクロアクションにおける最初の操作の適用条件と任意の追加条件によって与えられる。マクロ アクションの終了条件は、マクロ アクションの最後の操作の終了条件によって与えられます。

マクロアクション 追加の適用条件 マニュアルシーケンス(動作パラメータ)
立ち止まるな -- フォロー(車線の端が見える)
出口に向かって進みます ロータリーにいて、車線から出てはいけない 車両に従ってください(次の出口ポイント)
車線を左/右に変更する 左右に車線がある 車に追従し(直線目標車線が空いている)、左/右に車線を変更します
左/右に出ます 出口は車両の前方の同じ車線内にあります 車(出口)に従い、指定された道路(相対車線)を左/右折します
ストップ 現在の車線の先に停止目標があります 車に追従して(停留所の近くで)停止する


C. 速度平滑化
 

車両 i の実現可能な軌道を取得するには、指定された軌道 si 1:n の目標速度を最適化する速度平滑化操作を定義する必要があります。xt を、ターゲット速度 1 ≤ t ≤ n の基準経路上の si および vt における縦方向の位置とする。κ : x → v を点 xt 間のターゲット速度の区分的線形補間として定義します。2 つのタイム ステップの差を時間 Δt、最大速度と加速度 vmax/amax、x1 = x^1、v1 = v^1 と設定すると、速度平滑化を次のように定義します。

ここで、 λ > 0 は、最適化目標の加速部分に与えられる重みです。上の式は非線形非凸最適化問題です。たとえば、主双対内点法を使用すると、この種の問題を解決できます。

問題 (x2:n, v2:n) の解から、x^t における元の点の達成可能な速度は補間によって取得できます。

D. ターゲットの認識

各非自我車両 i は、定義されたマクロアクションから構築された対応する動作計画を使用して、有限数の可能な目標 Gi ∈ Gi の 1 つに到達しようとしていると仮定します。合理的逆計画法のフレームワークを使用して、時間 t における i のターゲットのベイズ事後分布を計算します。

ここで、L(s1:t|Gi) は、i のターゲットが Gi である場合の観測軌跡の尤度であり、p(Gi) は Gi の事前確率を指定します。

尤度は 2 つの計画間の報酬の差の関数です。i の初期観察状態 si1 から速度平滑化目標 Gi までの最良の軌道に対する報酬 r^、時刻 t までの観察された軌道に沿った軌道に対する報酬 r^ r が最適な方法でターゲット Gi に到達し続けると、平滑化は t 以降の軌道にのみ適用されます。

確率はスケーリング パラメーターとして定義され、この可能性の定義では、ある程度のバイアスを考慮しながら、車両が目標を達成するためにほぼ合理的に (つまり、最適に) 運転することを前提としています。目標が実現不可能な場合は、その可能性をゼロに設定します。

1)オブジェクト生成:ヒューリスティック関数を使用して、車両iの位置および道路レイアウトなどのコンテキスト情報に基づいて、可能なオブジェクトGiのセットを生成する。私たちのシステムには、現在の道路と、道路の目に見える端(自我車両の視野によって境界が定められている)を接続するオブジェクトが含まれています。このような静的ターゲットに加えて、現在のトラフィックに依存する動的ターゲットを追加することもできます。たとえば、密な合流シナリオでは、自車両が前方で合流できるようにするという車両の意図をシミュレートするために、停止ターゲットが動的に追加されます。
 

2) 操縦検出:操縦検出は、車両が現在 (時間 t で) 実行する必要がある動作を検出するために使用され、継続的な計画を立てる前に完了する必要がある動作の逆計画を可能にします。各車両 i の現在の動作確率 p(ωi) を計算するモジュールを想定すると、1 つのオプションはベイジアン変化点検出です。異なる現在のアクションは異なる目標を意味する可能性があるため、p(ωi) > 0 で考えられる現在のアクションごとに逆計画を実行できます。したがって、現在の各アクションが関連するターゲットを生成する事後確率は、p(Gi|s1:t , ωi) として表すことができます。

3) 逆計画:逆計画とは、A*search を使用してマクロ アクションを計画することです。A* は、現在の操作 ωi が完了した後に開始され、初期軌道 s^1:τ になります。各検索ノード q は状態 s ∈ S に対応し、初期ノードは状態 sτ にあり、マクロアクションは s に適用される適用条件によってフィルタリングされます。A* は、ターゲット Gi までの推定合計コストが最も低いノード q' につながる次のマクロ操作を選択します。ノード q' に到達するコスト l は f(q' ) = l(q' ) + h(q ') (q' ) が計算されます。最初の検索ノードの i の位置から q' の位置までの移動時間によって与えられ、マクロ アクションによって q' に向かって返された軌跡をたどります。

A* は、観測された軌道に従う等速車線追従モデルを使用する予定のない他のすべての車両を想定しています。インバース プランニング中に衝突のチェックは行いません。q'から目標Giまでの残りのコストを見積もるコストヒューリスティックh(q 0 )は、q0のiの位置から目標までの直線の制限速度での移動時間で与えられる。h(q0 ) のこの定義は、A* 理論によれば許容され、検索によって最適なプランが返されることが保証されます。最適な計画を見つけた後、計画内の操作と初期セグメント s^1:τ から完全な軌道 s^i 1:n を抽出します。

4) 軌道予測:私たちのシステムは、特定の車両とターゲットについて考えられる複数の軌道を予測する必要があります。場合によっては、異なる軌道が最適 (に近い) であっても、異なる予測が得られ、自我車両の異なる動作が必要になる場合があるからです。A* 検索を一定時間実行し、関連する報酬を含む一連の計画 (最大一定数の計画) を計算させます。

A* 検索で目標を達成するノードが見つかると、対応するプランがプラン セットに追加されます。初期状態 ω i と関連する報酬 rk = Ri(s^i,k1:n) を持つ目標に向かう一連の滑らかな軌道 {s^i,k 1:n |ω i, Gi} k=1..K が与えられるとします。 Gi、次のボルツマン分布予測を通じて最適な軌道を取得できます。

ここで、γ はスケーリング パラメーターです (γ = 1 に設定します)。

E. 自車両計画自車両の最適な計画を計算するために、ターゲットの確率と予測軌道を使用してモンテカルロ ツリー検索 (MCTS) アルゴリズムを実装します。

このアルゴリズムは、現在の状態 s^t = st から開始して一定の検索深さまで、または目標状態に到達するまで、多数の閉ループ シミュレーション s^t:n を実行します。各シミュレーションの開始時に、各非自我車両について、まず現在の操縦をサンプリングし、次に関連する確率を使用して車両の目標と軌道をサンプリングします。検索ツリーの各ノード q は状態 s ∈ S に対応し、マクロアクションは s に適用される適用条件によってフィルタリングされます。いくつかの探索手法を使用してマクロアクション μ が選択された後、マクロアクション μ によって生成された軌道と非自我車両のサンプリングされた軌道に従って、現在の検索ノードの状態が順方向シミュレーションされて部分軌道が生成されます。 s^τ:ι と新しい検索ノード q0 および状態 s^ι。

軌道の前方シミュレーションでは、比例制御とアダプティブ クルーズ コントロールを組み合わせて車両の加速とステアリングを制御します。車両の観察に基づいて、車両運動の終了条件が各時間ステップで監視されます。衝突チェックは s^τ:ι で実行され、自我車両が衝突するかどうかをチェックします。この場合、バックプロパゲーションの報酬を r ← rcoll に設定します。rcoll はメソッド パラメーターです。新しい状態 s^ι が自我目標 Gε に到達した場合、バックプロパゲーションの報酬を r ← Rε (s^t:n) として計算します。探索が衝突や目標の達成なしに最大深さ dmax に達した場合、r ← rterm を設定します。これは、定数または A* 探索と同様のヒューリスティックに基づく報酬推定値になります。

4.まとめ

この論文では、合理的逆計画法による物体認識とマルチモーダル軌道予測の方法を紹介します。物体認識と MCTS 計画を組み合わせることにより、自車両用に最適化された計画が生成されます。シミュレーションされた都市部の運転シナリオでの評価では、正確な物体認識、運転効率の向上、予測を解釈して自己計画を立てる能力が示されました。

著者 | ジェシー

出典| 燕志

おすすめ

転載: blog.csdn.net/yessunday/article/details/131304145