インタラクティブな知覚とは何ですか? 社会的相互作用の動的モデルと自動運転における意思決定のフロンティアを包括的にレビューします。

自動運転の心臓部」公開アカウントをフォローするには、下のカードをクリックしてください

ADAS の膨大な辛口情報が入手可能に

>>クリックしてエントリー→自動運転の核心【フルスタックアルゴリズム】 技術交流会

エディター | オートパイロットの中心部

上記と著者の個人的な理解

インタラクションアウェア自動運転 (IAAD) は、人間の道路利用者と安全かつ効率的に対話できる自動運転車の開発に焦点を当てた、急速に成長している研究分野です。これは、自動運転車が人間の道路利用者の行動を理解し、予測できる必要があるため、困難な課題です。この文献レビューでは、著者らは IAAD 研究の現状を調査します。用語の調査から始まり、ドライバーと歩行者の行動をシミュレートする際の課題と既存のモデルに焦点が当てられました。次に、認知手法、機械学習手法、ゲーム理論手法を含む、インタラクション モデリングのさまざまな手法を包括的にレビューします。結論は、IAAD に関連する潜在的な利点とリスク、および将来の研究調査にとって重要な重要な問題について議論することによって導き出されます。

インタラクティブな知覚の概要

近年、ロボット工学や機械学習の進歩により、自動運転車技術の開発への関心が高まっています。これにより、自動運転エンジニアは、自動運転タスクの複雑さに対処できるアルゴリズムを開発できるようになります。自動運転車は、交通の質を改善し、交通事故を減らし、移動時間の質を向上させる可能性があります。現在、ますます多くの自動運転車が現実世界に導入され、他の人間の道路利用者と環境を共有しています。このため、自動運転車は他の人間の道路利用者を理解してスムーズに交流することができず、交通トラブルや安全上の問題を引き起こす可能性があるのではないかという懸念が生じています。効率的かつ安全な方法で動作するために、自動運転車は人間のような方法で動作し、他の人間の道路利用者との相互作用を考慮した最適な動作を生成する必要があります。これは、潜在的なトラフィック競合を減らすために不可欠です。たとえば、交差点で注意しながら不必要に停止すると、追突事故が発生する可能性があります。完全自動運転車を開発するには、認識、意思決定、計画、制御など、自動運転車技術の多くの側面で進歩が必要です。自動運転車の動作は自動運転車の動作に影響を与え、またその逆も同様であるため、周囲の人間の道路利用者の行動を予測し、それに応じて自動運転車の意思決定を行う上で、周囲の人間の道路利用者とのインタラクションがますます重要になってきています。

この論文の目的は、自動運転の文脈におけるインタラクティブな知覚運動計画と意思決定における最先端技術の詳細な調査を実施することです。具体的には、本文ではまず人間の道路利用者の行動モデルを取り上げ、道路上の人間の道路利用者の意思決定に影響を与える要因を強調します。ドライバーと歩行者の行動モデルが自動運転車にとって非常に重要であるのには理由があります。まず、自動運転車の周囲の道路利用者の行動を評価および予測するために使用できます。第二に、人間のような自動運転車の動作を開発するのに役立ちます。したがって、どちらも予測価値があり、モデル/システム設計に関連する洞察を追加します。

このレビューは 5 つの主要な部分に分かれており、対話型知覚自動運転のさまざまな領域をカバーしています。セクション 2 では、インタラクションを意識した自動運転で使用される用語を紹介します。紙の構造の概要については、以下の図 1 を参照してください。セクション 3 では、人間の運転決定に影響を与えるヒューマンファクターの研究と歩行者の行動の研究について説明します。セクション 4 では、インタラクション モデリングの既存の手法の広範な概要と分類を示します。最後に、セクション 5 と 6 では、インタラクティブなシナリオでの動作計画と意思決定のための最先端の技術について説明します。

自動運転は近年活発な研究分野となっていますが、ほとんどの研究は車両のみが関与するシナリオに焦点を当てています。車両と歩行者の両方を含む異種混合シーンを扱った作品は比較的少ない。このホワイトペーパーでは、異種シーンに焦点を当てていますが、セクション 5 と 6 では、歩行者のいないシーンの処理に関する関連作業も取り上げます。これは、これらの論文で使用されている手法が混合トラフィック シナリオに簡単に適用できるか、混合トラフィック シナリオの処理に関する一般的な問題について重要な洞察を提供できるためです。

2451d5f75db0e9ff53c879075cba42b7.png

インタラクションを意識した自動運転用語

インタラクティブな感覚運動計画と意思決定における最近の進歩について説明する前に、この記事ではまず、この分野で使用されるいくつかの用語を定義します。自動運転の分野では、「自車両」という用語は、制御および研究の対象となる特定の車両を指します。自車の周囲のエリアを占有する他のすべての車両、自転車、歩行者などは対話型障害物とみなされ、周囲交通参加者と呼ばれます。以下の図 2a を参照してください。近い将来、道路交通が完全に自動化される可能性は低いため、自動運転車は必然的に人間のドライバーや歩行者などの人間の道路利用者(HRU)との混合環境で動作することになります。したがって、インタラクションを意識した自動運転は、周囲の HRU と安全かつ効果的に対話できる自動運転車の開発に焦点を当てた研究分野です。従来の自動運転手法では、通常、周囲の HRU を動的障害物として扱います。しかし、彼らは現在の状況に適応するために常に行動を変えるため、これは現実的なアプローチではありません。

多くの場合、周囲の複数の HRU が、HRU 同士の間、または自分の車両との共有スペースをめぐって競合を引き起こす可能性があります。このような状況では、2 人以上の道路利用者が近い将来に同じ空間エリアに存在するつもりであると推測するのが合理的です。同じ位置です。図 2b を参照してください。紛争に巻き込まれた道路利用者はインタラクティブな行動を示すと考えられており、これはスペース共有の紛争がなければ異なる行動をとることを意味します。さらに、相互作用には必ずしも衝突が伴うわけではありません。これは、道路利用者の意図を示し、HRU に影響を与える明示的または暗黙的なコミュニケーションです。たとえば、ドライバーは、前方車両の方向指示器に基づいて、車両と前方車両が同じ車線内になく、近い将来衝突しないように運転戦略を立てることができます。したがって、インタラクティブな行動とは、道路利用者が他者の行動に適応するため、または応答を求め、望ましい目標を達成するために行動を起こすためのさまざまな行動のことを指します。インタラクションは運転中いつでも発生するため、開発される自動運転車のアルゴリズムは、道路利用者間のインタラクションのダイナミクスを理解する必要があります。このようなアルゴリズムは対話型知覚と呼ばれ、最近の自動運転研究の焦点となることがよくあります。現在、安全で社会的に受け入れられる対話型認識自動運転システムには、いくつかの課題による制約があります。課題の 1 つは、HRU がどのように相互作用するかに関する革新的な理論が存在しないことです。開発する理論は HRU の動作の予測とモデル化に限定されず、動作パターンとその根底にあるメカニズムの探索も含まれるため、これは困難な作業です。自動運転車を人間と同じように交通にシームレスに統合するには、より高度な行動理論とモデルが必要になります。もう 1 つの課題は、他の HRU と安全かつ効率的に対話し、人間の標準に準拠した自律車両の動作を生成できるアルゴリズムを開発する必要があることです。以下の図 3 は、自動運転車システムを構成する主要な部品を示しています。センサーからの生データは、周囲の環境を検出して位置特定を行う認識モジュールによって処理され、自車が目的地に到達するためのグローバル ルート プランを生成できるようになります。シナリオをさらに解釈して、周囲の交通参加者の予測に基づいて行動することもできます。道路利用者はお互いの軌跡や決定に影響を与えるため、インタラクティブな知覚モデルは予測タスクにおいて重要な役割を果たします。

意思決定と経路計画は、自動運転における 2 つの最も重要なタスクのうちの 1 つです。彼らは、車両が環境内をどのように移動するかを決定する責任があります。意思決定は、一連の可能なオプションからアクションを選択するプロセスです。たとえば、車両は車線を変更するか、減速するか、停止するかを決定する必要がある場合があります。経路計画は、車両がたどることのできる安全で実行可能な軌道を生成するプロセスです。意思決定と経路計画は密接に関連しています。意思決定プロセスでは通常、「左車線変更」などの高レベルの計画が出力されます。次に、経路計画プロセスがこの計画を採用し、車両がたどることのできる詳細な軌道を生成します。どちらのタスクでも、車両の現在位置、その機能、周囲の交通状況を考慮する必要があるため、インタラクション知覚モデルは両方のタスクに非常に関連しています。制御システムの観点から見ると、車両のダイナミクスはその状態、つまり位置と方向、およびそれらの時間導関数によって表されます。環境の状態は、すべての動的エンティティと静的エンティティの状態によって決まります。物理的状態空間は、シーン理解システムの一部として周囲のユーザーの意図や行動の好みを捕捉する追加の潜在空間変数を捕捉することによって拡張することもできます。

36c601b2529a69c046260057ce16a628.png 21d76a259a286043e6021caf7805aa34.png

人間の行動の研究と相互作用

このセクションでは、特にコミュニケーションの観点から、自動運転車や従来型車両と対話する人間のドライバーや歩行者を含む HRU (人間の道路利用者) の行動に関する実証研究とモデル化研究の結果を総合します。インタラクション対応自動運転車の開発を促進する可能性のある洞察を発見することを目的として、路上インタラクションに関する研究に焦点を当てています。ここでのこの文書の範囲を超える調査には、ルート、天候、規制などの巨視的な交通状況の影響も含まれます。

cea629892ff7c3a01e0b8d60be95394b.png0bd3eccc45a210be67997359d245e481.png

ドライバーの行動調査

ドライバーの行動モデルは、さまざまな運転シナリオでドライバーがどのように行動するかを予測し、理解するために使用されます。これらのモデルは、輸送システムの安全性と効率を向上させ、自動運転車の設計プロセスを支援するために使用できます。個人の特性 (年齢、性別、性格、経験)、環境要因、つまり道路や気象条件、ドライバーと HRU の相互作用などの社会的要因など、多くの要因が運転行動に影響を与える可能性があります。ここでは、車両と歩行者のインタラクションに関連する DBM に焦点を当てます。

最も一般的なドライバーの動作モデルには次のものがあります。

  • ドライバー リスク フィールド モデル: (下の図 4a) このモデルは、ドライバーがさまざまな運転状況でリスクをどのように認識するかを予測します。DRF モデルの基本的な考え方は、ドライバーがリスクの認識に基づいて意思決定を行うというものです。[16] の研究結果は、運転行動が人間の知覚と行動に対する騒音の影響を考慮したコスト関数によって制御されることを示しています。自動運転車に対するリスク認識は、運転シミュレーション シナリオを使用して [19] でも分析されました。

  • 理論ベース: (下の図 4b) 知覚と認知のモデル。知覚情報に基づくモデルは、知覚的手がかり (距離、車両速度、加速度、拡張角度、反応時間など) に基づいてドライバーの行動を記述します。認知モデルは、心理的な人間としてのドライバーの内部状態の流れと、ドライバーの行動を制御する動機を概説します。

  • データ駆動型モデル: (下の図 4c) このグループの方法は、ドライバーの行動を分析するために機械学習を使用した自然な運転データの分析に依存しています。データ駆動型モデルは、人間の行動の生成モデルまたは識別モデルを学習して、ドライバーの将来の決定や好みの運転スタイルを予測できます。モデルの検証は、予測を実際のデータと比較し、人間参加型シミュレーションを通じて行うことができます。

87a4676edbc30256f7d0797c7cf91ad9.png

既存の研究では、自然主義的な運転データ分析を通じて、歩行者がいるときのドライバーの行動に焦点を当てています。[24] の著者らは、車線に沿って歩いている歩行者を追い越すとき、反対方向に歩いている歩行者を追い越すとき、または対向車が存在するときに、ドライバーは最小の横方向の車間距離を小さく保ち、追い越し速度を低くする傾向があることを発見しました。最小横方向ギャップと衝突までの時間の関係は、追い越し速度との関係は弱いだけです。[25] の結果は、車両の減速挙動が衝突までの初期時間 (TTC)、歩行者の横断意図の主観的判断、車両の速度、歩行者の位置、横断方向に関連していることを示しました。

複数の車両と歩行者が相互作用するマルチロードユーザー設定にはあまり注目されていません。[26] では、著者らは、交差点で収集されたデータに基づいて、交差点でのドライバーと歩行者の行動をシミュレートする複数道路ユーザーの敵対的強化学習 (IRL) フレームワークを開発しました。全体として、DBM は輸送システムの安全性と効率性を大幅に向上させることが期待できる有望な研究分野です。ただし、これらのモデルの開発と検証には、依然としてかなりの作業が必要です。今後の研究では、ドライバーの内部状態、環境、他の HRU との相互作用など、より広範囲の要因を考慮した、より包括的なモデルの開発に焦点を当てる必要があります。

歩行者行動調査

歩行者は最も脆弱な道路利用者であると考えられており、保護具が不足しており、低速で移動しているため、歩行者の行動と自律的な車両と歩行者の相互作用を調査することは、安全性と受容性にとって明らかに関連性があります。歩行者の行動は、何十年にもわたって広範な研究の対象となってきました。最近、自動運転車の出現により、歩行者の行動に関する多くの新しい研究上の疑問が生じています。この分野における膨大な研究と著者の目標を考慮して、このセクションでは網羅的な調査を提供するのではなく、主な研究を概観します。このレビューでは、コミュニケーション、横断行動の理論とモデル、自動運転車を含むアプリケーションという 3 つの観点から、車両と対話する歩行者の行動に関する研究が取り上げられています。目的は、インタラクティブな認識機能を備えた自動運転車の開発におけるその価値を特定し、要約することです。

通信

動的な交通環境では、道路利用者は、意図的または非意図的に、動きや空間的合図を通じて互いに情報を伝達し、その結果、明示的および暗黙的なコミュニケーションが生じます。この調査結果は、自動運転車の運動学と信号情報が、ドライバーの役割がないために歩行者の道路行動に大きな影響を与えるという点で一致しています。したがって、歩行者の道路行動に影響を与える主要な行動の合図や信号を特定する研究は非常に重要です(以下の図 5a を参照)。

eadf8feb2924d02a40658fbc0f41f81c.png

車両の動きの手がかりなどの暗黙的な通信信号には、車両自体の動きに影響を与える道路利用者の行動が含まれますが、別の道路利用者の意図や動きへの手がかりとして解釈される場合があります。接近する車両と歩行者との間の距離 (TTC) は、歩行者の行動に影響を与える最も重要な暗黙の情報です。証拠によれば、歩行者は TTC よりも距離を重視する傾向があります。つまり、同じ TTC の場合、車両が高速で接近すると、歩行者が道路を横断する頻度が高くなります。最近の研究によると、歩行者は 1 つの情報源に依存するのではなく、車両の動きから得られる複数の情報源を利用していることがわかっています。歩行者の行動に対する速度、距離、TTC の影響は相互に関連しています。

ブレーキ動作は、歩行者の行動に影響を与えるもう 1 つの重要な暗黙的な情報です。車両の動きは、歩行者の車両に対する信頼、感情、歩行者の意思決定への影響に関係します。近づいてくる車両が早めに速度を落とし、軽くブレーキをかけると、歩行者は安心して素早く道路を渡り始めます。急ブレーキは歩行者の回避行動につながります。一方で、早いブレーキ動作と強いピッチングにより、歩行者が車両の意図を理解するのに必要な時間が短縮されます。歩行者に低速で接近したり、道を譲ったりする車両は理解の妨げとなる可能性があります。

交通量や隙間の大きさなどの交通特性は、歩行者に暗黙の情報を提供します。交通量が多いと、歩行者は時間的コストが増加するため、より小さな交通ギャップを受け入れざるを得なくなり、危険を冒す傾向が高まります。しかし、待つ傾向のある歩行者はより慎重で、危険な隙間を受け入れる可能性が低いという実質的な証拠があります。交通量と歩行者の横断行動の関係は状況に依存し、交通の隙間の大きさや順序によって影響を受ける可能性があります。

さらに、道路に向かう歩行者の動き、路肩に立っている様子、歩行者の頭の方向などが、接近する車両に重要な暗黙の情報を伝える可能性があります。歩行者は、道路に踏み出したり、近づいてくる車両に目を向けたりして、自分の優先権を主張することがよくあります。

明確な通信信号には、道路利用者自身の動きや認識に影響を与えることなく、他の道路利用者に信号情報を伝える行動が含まれます。一般的なシナリオは、車両が外部ヒューマン マシン インターフェイス (eHMI) を介して歩行者に情報を通信することです。人間のドライバーがいない自動運転車の状況では、eHMI が重要になります。歩行者と自動運転車のインタラクションにおける eHMI の利点を裏付ける実質的な証拠があります。ヘッドライト、ライト ストリップ、擬人化シンボルなど、さまざまなタイプの eHMI プロトタイプが提案されていますが、最適な eHMI の形式と伝達されるメッセージについてのコンセンサスは依然として得られていません。

多くの研究で、eHMI のパフォーマンスがさまざまな要因に依存することが示されています。eHMI に対する歩行者の精通度、信頼性、解釈は、歩行者に情報を伝える際の eHMI の有効性に大きく影響する可能性があります。たとえば、歩行者は、新しい eHMI (ライト ストリップ) よりも、従来の eHMI (ヘッドライトの点滅) を車両に道を譲る合図として理解しています。eHMI が機能しない場合、歩行者は eHMI を過度に信頼し、車両の動きの合図に過度に依存する可能性があり、危険です。「OK TO CROSS」などの eHMI によって伝えられる自己中心的なメッセージは、「STOPPING」などの他の人に割り当てられたメッセージよりも説得力があります。さらに、eHMI の信頼性は、天候、照明条件、車両の挙動によって影響されます。たとえば、悪天候の場合、歩行者は車両の標識を読み取ることができない場合があります。車両が道を譲ったり、急激に速度を落としたりしない場合、歩行者の道路を横断する意欲は eHMI の影響を受けません。eHMI を車両ではなく道路インフラに搭載したり、eHMI を車両の動きの合図とともに使用したりするなど、他のコンセプトは純粋な eHMI よりも優れたパフォーマンスを発揮する可能性があります。

さらに、車両の観点からはそれほど一般的ではありませんが、歩行者も明確な信号を使用して自動運転車と通信します。これらの信号にはアイコンタクトや手のジェスチャーが含まれており、歩行者は自動運転車が歩行者を認識して優先権を要求できるようにするために使用します。人間のドライバーの不足を補うために、自動運転車は運転席に人間のようなビジュアルアバターを配置し、無線通信技術を利用して車両と歩行者のコミュニケーションを強化できます。

横断行動の理論とモデル

歩行者横断行動にはさまざまな認知プロセスが含まれます。これまでの研究では、インタラクションにおける歩行者の横断行動の構築には、知覚、意思決定、開始、移動という 3 つのレベルのプロセスが関与することが示されています。この仮定に基づいて、以下のセクションでは、これら 3 つの認知プロセスに関する歩行者の横断行動の理論とモデルを統合します (図 5b を参照)。

ギブソンによって確立された視覚知覚の理論は、物体が観察者に近づくと、網膜上のその像が拡大し、人間の衝突知覚の基礎を形成すると説明しています。横断シーンにおいて、網膜上での車両の像の拡大率が一定の閾値に達すると、歩行者は車両が近づいていると認識することを視覚近似現象といいます。心理物理学的モデルは、この拡大率を、歩行者の瞳孔に接近する車両によって形成される視角の変化(̇θで示される)に単純化します(図6a)。最近の研究では、歩行者が接近する車両を観察するための主要な視覚的合図として ̇θ を使用していることが示されています。ただし、̇θ は空間情報を提供しますが、車両がいつ歩行者の位置に到達するかを伝えません。交差点のシナリオでは、車両が道を譲った場合、歩行者は車両が時間内に停止できるかどうかを推定するための時間情報を必要とします。Lee の数学的実証は、θ 対 ̇θ の比として表される視覚的手がかり τ が、接近する車両の TTC を示している可能性があることを示しました。さらに、τ の 1 時間微分値 ̇τ は、現在の減速度が衝突を回避するのに十分であるかどうかを検出するために使用されます。さらに、この研究では、歩行者は特定の角度、つまり車両と歩行者の視線の間の角度である方位角で、差し迫った衝突イベントを視覚的に認識する可能性があることがわかりました(図6b)。

e96521d18b3e3e2f8d50367a1411aa1d.png

視覚的な手がかりに加えて、歩行者の認識は知覚戦略に依存する場合があります。Tianらによる研究は、歩行者による車両挙動の推定は、意思決定をまたぐ別のプロセスまたはサブプロセスである可能性があることを示唆している。大きな交通ギャップがある場合、歩行者は車両の運転行動ではなく、ギャップの大きさに依存する傾向があります。同様に、衝突事象が遠くにある場合、人間は θ や ̇θ などの「ヒューリスティックな」視覚的手がかりを使用する傾向があるとデルシア氏は指摘しています。しかし、衝突が差し迫ってくると、τ などの光学的不変量が知覚を支配し、より豊富な時空間情報が提供されます。

感知メカニズムに加えて、さまざまな要因が歩行者の知覚に影響を与える可能性があります。研究によると、高齢者や子供の歩行者は、年齢に関連した限界を認識しているため、衝突の危険がより高くなります。高齢の歩行者は接近する車両を判断する際にTTCよりも距離に依存する傾向があり、一方子供たちはより高速で接近する車両を検知するのが困難でした。注意散漫、特に視覚的要素や手動要素を伴うもの (スマートフォンの使用など) は、かなりの注意力をそらし、歩行者の交通状況を観察する能力を妨げます。対照的に、音楽を聴くなどの認知的な注意散漫は、歩行者の知覚に大きな影響を与えない可能性があります。

意思決定信号機のない制御されていない交差点では、歩行者が、道を譲る場合と譲らない場合がある車両と接触することがよくあります。歩行者は、道を譲らずに、接近する車両間の距離を評価することによって横断を決定することがよくあります。これは、ギャップ受け入れ行動 (GA) として知られています。この概念は、Raff のモデル、HCM2010 のモデル、Rasouli のモデルなどのクリティカル ギャップ モデルの開発につながりました。さらに、バイナリ ロジット モデルは、トラバーサル決定をバイナリ変数として扱い、人工ニューラル ネットワーク (ANN)、サポート ベクター マシン (SVM)、ロジスティック回帰 (LR) などの機械学習アルゴリズムを利用します。たとえば、KadaliらはANNを使用して、さまざまな独立変数に基づいて交差点の決定を予測しました(図6c)、Sunらは歩行者の年齢、性別、グループのサイズ、車両の種類などの変数を含むLRを使用しました。

車両が道を譲るシナリオでは、横断の決定は二峰性横断行動 (BC) と呼ばれる二峰性パターンに従う傾向があります。交通ギャップが十分に大きい場合、または車両が停止しようとしている場合、歩行者は横断する可能性が高くなります。ただし、この状況で意思決定を行うことは、意思決定の手がかりと衝突リスクとの間には相反する関係があり、車の通行量とは負の相関があり、車の速度とは正の相関があるため、困難になる可能性があります。Zhuらは、車両の速度と距離に基づいて、横断の決定を3つのグループ、つまり横断、ジレンマ状態、待機に分類しました(図6d)。さらに、Tianらは、歩行者はBC行動に基づいて異なる意思決定戦略を採用し、異なる視覚的合図への反応として横断の意思決定をモデル化していると仮説を立てた。

上記の方法は観察された行動パターンに基づいて交差する意思決定をシミュレートしますが、他のモデルはこれらの意思決定の基礎となる心理的メカニズムを掘り下げます。具体的には、Tianらは視覚的手がかりに基づいて歩行者のGA行動をシミュレートし、より複雑な視覚認識メカニズムを備えた降伏シナリオでそれを拡張した。Wang らは、強化学習 (RL) モデルを使用して、限られたセンシング メカニズムに基づいて歩行者の横断行動を捕捉しました。さらに、モデルの 1 つのクラス、つまりドリフト拡散モデルなどの証拠蓄積 (EA) モデルは、交差の決定は視覚的証拠とノイズの蓄積によって決定され、特定のしきい値に達すると決定が最終化されることを提案しています。 。大規模な心理理論を統合して、歩行者横断の決定が詳細に説明されています(図6e)。さらに、ゲーム理論を適用して、歩行者と車両が優先権を交渉する際の横断の決定をシミュレートします。伝統的なゲーム理論であるシーケンシャル チキン (SC) ゲームとダブル アキュムレーター (DA) ゲームは、動的なトラバーサルの決定を特徴付けるために使用されます。

環境の多様性と歩行者の異質性により、横断の意思決定モデリングはさらに複雑になります。たとえば、複数の車線を横断する場合、多くの場合、歩行者が車線の境界線で待機し、車の隙間を 1 つずつ受け入れることになります。これは、ローリング ギャップ動作として知られています。車線境界線で待っている歩行者は、より小さな交通ギャップを受け入れる可能性が高いかもしれませんが、縁石で待っている歩行者はそれを受け入れる可能性が低いかもしれません。もう 1 つの複雑なシナリオは、肉体的にも認知的にも困難な、双方向道路の横断です。歩行者は両側の車両を考慮する必要があります。同様に、交差点で混雑した連続交通を横断することは、歩行者が交通の上流の隙間を横断することを予測し、安全性と時間効率の間でトレードオフを行う必要があるため、困難です。一般に、待ち時間が長くなると、歩行者はより危険な横断機会を受け入れる傾向があると考えられています。しかし、最新の証拠は、待ちの姿勢の歩行者はより慎重で、危険な隙間を受け入れる可能性が低いことを示唆しています。歩行者の異質性に関しては、ANN モデルと LR モデルを適用して、横断の意思決定に対する年齢の影響を特徴付けます。携帯電話の使用など気が散ることも、歩行者の横断の判断に影響を与える可能性があります。ANN を適用して、携帯電話の使用が交差する意思決定に及ぼす影響をシミュレートします。さらに、歩行者は集団で道路を横断することが多く、集団行動を示します。この行動は、グループのメンバーがグループの中心から一定の距離を維持する傾向として説明されています。EA モデルは、以前の道路利用者の意思決定の影響を考慮して、グループの意思決定における情報カスケードを特徴付けるために使用されます。

開始と移動横断開始時間 (CIT) は、歩行者が横断を開始するまでに必要な時間を表し、歩行者の意思決定の動的な性質を反映しています。一般に、CIT は、横断の機会が利用可能になってから歩行者が動き始めるまでの時間です。ドリフト拡散理論では、CIT は、歩行者の認知システムと運動システムの効率を反映する、認知システム内の騒音証拠の蓄積によって影響を受けると考えられています。車両の動き、年齢、性別、気晴らしなど、さまざまな要因が CIT に影響を与える可能性があります。車の速度が高くなると、歩行者はよりゆっくりと横断を開始する傾向があります。さらに、女性の歩行者は男性よりも早く横断し始める傾向があり、高齢者の方が若い歩行者よりも早く横断し始める傾向があります。気を散らすことの影響は、その構成要素によって異なります。

歩行者が道を譲らない車両と対峙する状況では、車両と歩行者との間の距離が短くなるにつれて衝突の危険性が高まります。したがって、歩行者は、接近する車両の「スナップショット」を評価することで迅速な判断を下すことがよくあります。このような場合、CIT の分布は通常、中央に偏り、右に偏ります。これらの条件下で CIT をシミュレートするには、指数ガウス モデルやシフト ワルド (SW) 分布などの応答時間モデルが使用されます。たとえば、CIT は SW 分布に従う変数としてモデル化されます (下の図 7a)。

前のセクションで述べたように、車両降伏シーンでは、CIT は二峰性分布を示します。初期の CIT グループでは、歩行者が同様の意思決定戦略を採用しているため、分布は不歩譲シナリオの分布と類似しています。ただし、遅いグループの場合、分布は複雑であり、標準的な応答時間分布では説明できません。この複雑さに対処するために、時間とともに変化する証拠を備えた EA モデルが提案されており、複雑な形状の CIT 分布の生成を可能にしています (下の図 7b)。さらに、車両歩留まりシナリオの CIT は、応答時間モデルの同時分布を使用してモデル化されます。さらに、RL モデルを適用して歩行者の横断開始パターンを学習します。

歩行者は横断を開始した後、道路を横断する必要があります。歩行は横断行動の重要な部分であり、近くの車両の存在、インフラ、歩行者の年齢、注意散漫などの多くの要因の影響を受けます。歩行者は車両を避けるために歩行軌道を調整します。複数車線の交差点では、車線の境界線に移動して待機する傾向があり、各車線の交通の隙間を順番に受け入れます。横断するとき、歩行者は他のシナリオでの通常の歩行速度よりも速く歩くことがよくあります。性別は歩行速度に大きな影響を与えませんでしたが、青年と高齢者の歩行は遅くなりました。携帯電話の使用などの気が散ると、歩行者の速度が低下する可能性があります。

動作は、セル オートマトン (CA) モデル、ソーシャル フォース (SF) モデル、学習ベースの方法などの微視的な歩行者動作モデルを使用してシミュレートできます。CA モデルは空間、時間、状態が離散的であるため、歩行者と車両の相互作用などの複雑な動的システムのシミュレーションに最適です。ニュートンの第 2 法則に基づく SF モデルは、歩行者と車両の相互作用と大規模な歩行者の流れをシミュレートするために使用されます (下の図 7c)。SF モデルは、低速車両が関与する複雑な相互作用シナリオにおける歩行者グループの横断行動をシミュレートするために使用されました。

前述のホワイト ボックス モデルとは対照的に、自然データ セットまたは事前定義された環境から歩行者の歩行行動を学習する、学習方法に基づくブラック ボックス モデルもあります。たとえば、人工ニューラル ネットワーク (ANN) は、ビデオから抽出された歩行者と他の物体との間の相対的な空間および動きの関係を考慮して、歩行者の歩行行動を学習するために使用されます。SF モデルの出力は、さまざまな歩行者の歩行動作をシミュレートするための入力として ANN に供給されます。長短期記憶ネットワーク (LSTM) 歩行者軌跡予測モデルが提案されています (下の図 7d)。さらに、RL モデルと IRL モデルは、歩行者の歩行動作をシミュレートするためにも使用されます。RL モデルを適用して、SF 環境における複数の歩行者の歩行行動を学習します。IRL モデルは、ビデオ データセットから歩行者の歩行行動を学習するために開発されています。

9363d04d77d09171d10d1ca77c8cddfb.png
自動運転車に関連するアプリケーション

近年、自動運転車と歩行者の間の相互作用の研究への関心が徐々に高まっています。この関心により、歩行者横断行動の理論とモデルを適用して、これらの相互作用における自動運転車のパフォーマンスを強化または評価する多くの研究が行われてきました(以下の表 2)。

6e24193df23591104fb79d52aba69c5a.png

一般的なアプローチは、自動運転車の意思決定を支援するために、実世界のデータセットから歩行者の意図と軌跡を学習する学習ベースの手法を使用することです。たとえば、グラフ畳み込みニューラル ネットワーク ベースの歩行者軌跡予測モデルが提案されており、過去の歩行者軌跡を考慮して、自動運転車のユースケースにおける決定論的および確率論的な将来の軌跡を予測します。他の同様のモデルは、インタラクションの社会的コンテキストを考慮することで予測精度を向上させることを目的としています。例えば、過去の軌跡、歩行者の頭部方向、接近車両までの距離を入力として考慮したLSTM歩行者軌跡予測モデルが提案されている。さらに、歩行者の横断意図を予測することを目的とした研究もあります。歩行者の横断意図を予測するために、それぞれSVM、LSTM、ANNが適用されます。

学習方法は、歩行者の軌跡と意図を予測するのに効果的であることが証明されています。ただし、これらのモデルは優れたパフォーマンスを達成するために大量のデータを必要とし、十分なデータが不足している対話ケースの処理には制限があります。さらに、これらのモデルのブラックボックス的な性質により、生成された軌道や意図の解釈が困難になる可能性があり、自動運転車における意思決定のモデル化に課題が生じています。これらの問題を解決するために、エキスパート モデルが開発されました。たとえば、SF モデルは、TTC や車両と歩行者の間のインタラクション角度などのインタラクションの詳細をより多く組み込むことで、自動運転車の歩行者の軌跡を予測するように修正されています。さらに、SF モデルと CA モデルは自動運転車の意思決定モジュールにも組み込まれており、歩行者の横断行動を表し、歩行者とのインタラクションにおける自動運転車の意思決定をガイドします。

さらに、トラバーサル決定モデルは自動運転車の研究にも適用されています。たとえば、横断クリティカルギャップモデルは、自動運転車決定モジュールでの歩行者の横断決定を特徴付けるために採用されています。その速度-距離モデルを適用して、自動運転車の防御的および競争的な相互作用動作を設計します。LR モデルは、彼が提案した自動運転車の意思決定モジュールの横断歩道の意思決定モデルとして使用されています。交差点の決定の動的かつインタラクティブな性質を強化するために、自動運転車と優先通行権を交渉する際の交差点の決定をシミュレートするためにゲーム理論モデルも使用されます。研究者らはまた、歩行者の知覚理論やモデルを使用して、自動運転車の意思決定戦略を設計しようとしている。たとえば、自律車両と歩行者の結合動作は、視覚的な手がかり、τ、方位角に基づく制御理論を使用してシミュレートされました。方位角を使用した自動運転車と歩行者の降伏動作をモデル化します。

インタラクティブなモデリング

インタラクティブなモデリング技術は、交通予測から自動運転の計画や意思決定に至るまで、さまざまな自動運転タスクに不可欠です。自動運転における社会的相互作用を理解し、モデル化することは、シーンのダイナミクスを予測し、安全な自動運転動作を確保するために重要です。正確な予測により安全性が向上しますが、誤解された自動運転行動は事故につながる可能性があります。さらに、自動運転行動の社会的影響を理解することは、歩行者に道路を横断するよう早めに停止するなど、周囲の交通にも影響を与える可能性があります。インタラクション モデリング手法はさまざまなタスク ドメインに適用できるため、著者らは、設計対象の特定の運転タスクに関係なく、インタラクション モデリング手法をさまざまなインタラクション モデリング手法に分割することに重点を置いています。

まず、学習方法とモデルベースの方法を区別できます。自動運転の分野では、機械学習と深層学習の技術を活用した広範な研究が行われています。学習方法では、モデルは大規模なデータセットから学習されます。この一連の方法では、システムに関する事前の知識は必要ありません。データ駆動型のメソッドは、サンプル データセットでトレーニングされ、予測や決定を行うために使用されます。対照的に、モデルベースのアプローチは、システムを理論的に理解することから始まります。この事前知識は、システムの数学的モデルを作成するために使用されます。次に、経験的データを使用してモデルを検証したり、そのパラメーターを調整してモデルの予測とデータの差異を最小限に抑えます。

もう1つの区別は、そのアプローチが人間の行動を説明するために人間の心の認知機能を明示的に利用するのか、それとも環境入力を意思決定/行動にマッピングするために相互作用を暗黙的にシミュレートするだけであるのかに基づいています。セクション 3 で説明した人間の行動研究は、明示的な手法を開発するためのガイドとして役立ちます。たとえば、ゲーム理論のアプローチでは、より明示的なアプローチが取られ、交通参加者を、お互いの行動を積極的に考慮する合理的な道路利用者として見なします。一方、非認知的アプローチの例として、社会的力アプローチは、より経験的な視点を提供し、相互作用中の道路利用者の推論を説明するプロセスを明示的に詳細に説明することなく、参加者がお互いの行動に及ぼす影響を捉えます。著者らは、相互作用を明示的にシミュレートするか暗黙的にシミュレートするかに基づいて、既存のモデリング アプローチを区別することを提案しています。

これら 2 つの基準に基づいて、著者らは、以下の図 8 に示す 4 つの主要なインタラクション モデリング カテゴリを特定しました。

6de88118eff6dafd503723f91db09ef7.png

学習ベースの陰的手法

これらの方法は、機械学習または深層学習技術に依存しています。インタラクションは暗黙的にモデル化されます。つまり、道路利用者の行動はモデルでは説明できません。モデルはデータから入出力マッピングのみを学習します。モデル学習は、対話型モデル アーキテクチャを活用することで実現できます。一般に、インタラクションに特化したニューラル ネットワーク アーキテクチャを使用した深層学習手法がこれに分類されます。

このタイプのアプローチの目標は、道路利用者の将来の行動を予測する確率生成モデルを学習することです。モデルは、周囲の道路利用者の状態を含む環境の状態 x と学習可能なパラメーター θ のセットを条件とする確率分布です。

aadaca1b392fd4c4a9839d458eec433b.png

認知機能を備えた学習ベースの手法

これらのメソッドは、学習システムへの入力として使用される明示的に手作りされたインタラクション機能に依存しています。このタイプのインタラクション特徴には、人間の推論の背後にある特定の認知プロセスを反映する、時間間隔 (TTC)、相対距離などが含まれる場合があります。たとえば、 では、周囲の車両の車線変更の意図を分類するために車両間インタラクションを利用した LSTM が開発されました。インタラクション機能は、最悪の場合の TTC と周囲の車線の車両の相対距離を考慮したリスク マトリックスで構成されます。インタラクティブな機能はグラフの隣接行列で明示的にモデル化できるため、グラフ畳み込みネットワークもこのカテゴリに分類されます。

このタイプのアプローチの目標は、1 と同様の道路利用者の将来の行動を予測する確率的生成モデルを学習することです。この場合、確率分布は環境状態 x と明示的に手作りされた相互作用特徴 I(x) を条件とすることができます。

370dad2600fe59bb11d1326229ac72ec.png

モデルベースの非認知的アプローチ

これらのアプローチにおけるモデリングは、インタラクションが道路利用者の行動の基礎となる認知プロセスについて積極的に推論するものではないという点で、非認知的です。このグループの方法には、社会的勢力と潜在的な分野が含まれます。インタラクションは潜在関数 (SF) によって記述されます。潜在関数には、経験的データに基づいて調整できる学習可能なパラメーターのセットが含まれています。別のグループの方法には、ドライバーの行動がリスクベースのフィールドによって引き起こされるという仮定に基づく、運転リスクフィールドベースの方法が含まれます。モデルベースの暗黙的メソッドの利点は、解釈が容易で、交通ルールやシーン コンテキストなどのドメイン知識を埋め込むことができることです。一部のモデルは潜在フィールドを定義し、このフィールドの勾配に比例する道路利用者のアクションを定義します。

2aa28fd39ddbd655d1a8ea9dd387dd78.png

それ以外の場合は、力を直接モデル化して、勾配演算 a F*(*x) の必要性を排除できます。

モデルベースの認知的アプローチ

モデルベースの認知アプローチは、人間の意思決定の背後にある推論プロセスを説明します。方法には、効用最大化モデルと認知モデルという 2 つの主なカテゴリを区別できます。

効用最大化アプローチでは、人間は最適化者としてモデル化され、将来の効用を最大化するために行動を選択します。

80abd1c685d353e7a79a6319f24bea9e.png

これらの手法には、ゲーム理論やマルコフ決定プロセス (MDP) が含まれます。ゲーム理論のアプローチでは、道路利用者は互いに競争または協力するプレイヤーとしてモデル化され、それによってお互いにどのように反応するかが考慮されます。ゲーム理論フレームワークは、人間のドライバー間の動的な相互作用をモデル化するための透明で明確なソリューションを提供し、意思決定プロセスの明確な説明を可能にします。しかし、この方法は道路利用者数が増加すると計算量が増加するため、計算の扱いやすさの要件を満たすことが困難になります。もう 1 つの可能な解決策は、MDP で道路利用者としての人間の行動をモデル化することです。これは、結果が偶然や意思決定者の決定に影響される場合の意思決定をモデル化するための優れたフレームワークを提供します。MDP に対する解決策は、DRL アルゴリズムやモンテカルロ ツリー検索などの学習方法、または動的プログラミング手法を使用して見つけることができます。

2 番目のグループの方法は、心理的認知プロセスを使用して、道路利用者の行動の背後にある行動動機を捕捉することを目的としています。この一連のメソッドには次のものが含まれます。

  • 刺激応答モデル。ドライバーや歩行者の行動は網膜上の視覚刺激に依存します。

  • 証拠の蓄積。決定は蓄積された証拠の結果として記述されます。

  • 心の理論。人間は意思決定を行うために他人の考えや行動の理解を利用することを示唆しています。他人の行動を予測し、その知識を推測することで、人間は効率的かつ安全に運転できるようになります。

9364cee8d35bdbf78b3a8b6100809b63.png

次のセクションでは、各カテゴリのインタラクション モデリングをより詳細に分析します。特に、認知学習方法と非認知学習方法については、次のセクションで説明します。認知へのモデルベースのアプローチについては、これまでの章で詳細に説明されており、社会的力と潜在的フィールド、駆動リスクフィールドモデル、心の理論、刺激応答モデル、証拠蓄積モデルが含まれます。後の章では、MDP やゲーム理論を含む実用新案手法について説明します。

学習ベースのアプローチ

機械学習 (ML) 手法は、ターゲットの検出、シーンの理解、経路計画と制御など、自動運転のさまざまなタスクで広く使用されています。ML 手法は、大量のデータから学習することで、人間よりも正確かつ効率的な意思決定を行う方法を学習できます。このセクションでは、前のセクションで特定した陰的および陽的学習ベースの手法について説明し、関連する論文をさらに詳しく紹介します。以下の図 9 は、いくつかの学習ベースの方法の概要を示しています。

99b8225117db27782e21d4d1539249cb.png

ニューラル ネットワークの学習表現における最近の進歩のおかげで、生のセンサー データを入力として受け取り、ステアリングやスロットルなどの制御コマンドを出力するエンドツーエンドの運転アプローチを使用して、経路計画や制御の問題を解決できるようになりました。ただし、高次元の生の知覚データ (LiDAR 点群、カメラ画像など) から運転タスク全体を学習することは、知覚と意思決定を同時に学習する必要があるため、困難です。ほとんどの作品では、行動方法を学習するプロセスでは、動作計画および意思決定モジュールがシーン表現を利用できることを前提としています。実際には、これにはエンドツーエンドの運転を 2 つの主要なモジュールに分割する必要があります。1 つは自動運転車が見ることを学習するモジュールで、もう 1 つは自動運転車が動作することを学習するモジュールです。

エンドツーエンドの自動運転計画と制御タスク (行動方法の学習) には、主に 2 つのアプローチがあります。

  • 模倣学習: 道路利用者は専門家の行動を模倣することを学びます。

  • 深層強化学習 (DRL): 道路利用者は、シミュレートされた環境で試行錯誤のプロセスで行動する方法を学ぼうとします。DRL 方法については、後の章で詳しく分析します。

模倣学習は、道路利用者が専門のデモンストレーターの動作を模倣してタスクを実行する機械学習パラダイムであり、自律システムやロボットをトレーニングするための貴重な方法となっています。[151] では、インタラクション特徴はグラフ アテンション ネットワーク (GAT) を通じて学習されます。ネットワークへの入力には、周囲の道路利用者に関する運動学的情報と、鳥瞰図からのシーン表現をエンコードする特徴ベクトルが含まれます。モデルは、CARLA シミュレーターでプロのドライバーによって生成された合成データに基づいてトレーニングされます。模倣学習方法は、トレーニング シナリオと同様のシナリオではうまく機能することがよくありますが、シナリオがトレーニング分布から逸脱すると失敗することがよくあります。Dataset Aggregation (DAgger) のようなアルゴリズムは、目に見えない状況に対して人間がラベル付けしたデータを追加することで、模倣学習戦略のパフォーマンスを向上させることができます。ただし、専門家に新しいトレーニング サンプルのラベル付けを依頼するのは費用がかかり、実行不可能な場合があります。

ディープ ニューラル ネットワークは、シーンの理解と動きの予測のコンテキストで広く使用されています。[127] らは、群衆の動きの予測において周囲の隣人を考慮するために、ニューラル ネットワーク アーキテクチャでソーシャル プーリング操作を提案しました。同様に、マルチエージェント予測におけるインタラクティブ機能を考慮するために、最大プーリング操作を備えたスター トポロジ ネットワークが使用されます。CIDNN は、LSTM を使用して群衆内の各歩行者の動きを追跡し、位置予測のために対象の歩行者への近さに基づいて各歩行者の動きの特徴に重みを割り当てます。[129] の研究では、データセットを作成し、異種の道路利用者向けに異なる LSTM アーキテクチャを活用することで、混雑した混合シナリオで車両と歩行者の軌跡を予測するための VP-LSTM というフレームワークを提案しました。[130] では、シーン内のあらゆる道路利用者に対して合理的な予測を生成するために、敵対的生成ネットワーク (GAN) が適用されました。これらの方法の共通の特徴は、再帰型ニューラル ネットワークをプーリング操作と組み合わせて使用​​し、時空間相互作用の特徴を捕捉することです。ソーシャル プーリングの運用中、周囲の道路利用者の隠れた状態が、現在の道路利用者の動きを予測するために使用される特徴になります。拡散モデルは、時空間軌跡のモデリングで人気を集めている深層学習技術のもう 1 つのグループであり、歩行者や車両の軌跡を予測するために使用できます。

グラフ畳み込みネットワーク (GCN) は、道路利用者と対話する軌道予測タスクに広く使用されています。これらの方法では、道路構造はグラフとして表され、各ノードは交通アクターを表します。各ノードは、交通参加者のカテゴリ (自動車、トラック、歩行者など)、位置、速度などの情報を伝達できます。明示的な相互作用はグラフの隣接行列でモデル化できますが、暗黙的な部分はグラフ畳み込み層で構成されます。GCN は交通予測に広く使用されており、最近では動作計画において DRL と組み合わせて使用​​されています。

相互作用のモデル化に使用できる他の機械学習手法には、ガウス過程や隠れマルコフ モデルなどの確率的グラフィカル モデルなどがあります。

ユーティリティベースのアプローチ

ユーティリティベースの道路利用者は、ユーティリティ関数を使用して意思決定を導き、考えられる世界の状態に値を割り当て、最高のユーティリティをもたらすアクションを選択します。目標の満足度に基づいて状態を評価する目標ベースの道路利用者とは異なり、公共事業ベースの道路利用者は複数の目標を処理し、アクションの確率とコストを考慮できます。ユーティリティベースの手法には、マルコフ意思決定プロセス (MDP) やゲーム理論モデルが含まれます。

マルコフ決定プロセス

MDP は、結果が部分的にランダムであり、部分的に意思決定者によって制御される意思決定問題をモデル化するための数学的フレームワークです。MDP のモデリング フレームワークを以下の図 10 に示します。MDP 問題を解決するには、動的プログラミングと強化学習という 2 つの主なアプローチがあります。一般に、後者は高次元の状態空間により適しているため、自動運転により適しています。

497c98591095bc3989d99953170c5736.png
強化学習

強化学習 (RL) は、マルコフ意思決定プロセス (MDP) を利用して複雑な環境をモデル化し、期待される報酬を最大化するポリシーを学習するための一連のアルゴリズムを含みます。従来、動的プログラミングは、最終状態から開始して初期状態まで逆方向に各状態の値を繰り返し計算することにより、この目標を達成するための信頼できる方法でした。この方法は、状態空間が小さい場合にうまく機能します。ただし、自動運転の分野など、大規模な状態空間で RL の課題に直面する場合、これは計算負荷につながる可能性があります。より一般的には、ディープ ニューラル ネットワーク (DRL) で強化された RL が使用されます。DRL アルゴリズムは、サンプル効率とスケーラビリティの点で動的プログラミング アルゴリズムよりも優れている可能性がありますが、より複雑でトレーニングが難しい場合もあります。DRL の自動運転への適用に関するより詳細な研究については、を参照してください。

自動運転における DRL ソリューションは、使用されるシナリオ、状態空間表現、アクション空間、および使用されるアルゴリズムに従って分類されます。DRL で一般的に使用されるステータス表現を以下の図 11 に示します。

  • ベクトルベースの表現: この表現タイプでは、位置や速度などの周囲の車両に関する情報が固定長のベクトルに含まれます。

  • Bird's Eye View (BEV): 車両の周囲環境を上から見た 2D 画像表現。

  • 占有グリッド表現:BEV画像と同様に、自車両の周囲の環境を2次元で離散的に表現したものです。これはセルの 2D または 3D グリッドであり、各セルには障害物によって占有される確率と、セルを占有するエンティティ タイプに関するセグメンテーション情報が割り当てられます。

  • グラフ表現:自動運転車の周囲の環境の状態をグラフとして表現する方法です。グラフ内のノードは、車両、歩行者、信号機など、環境内のオブジェクトを表します。グラフ内のエッジは、距離や潜在的な衝突の可能性など、オブジェクト間の関係を表します。グラフ表現はコンパクトかつ効率的であり、環境状態を表現するための有望な方法です。

b51493f8d0b1286318bc7a4ac0e3560e.png

ベクトルベースの表現は、コンパクトかつ効率的な方法でオブジェクトを表現することによって機能しますが、オブジェクトを周囲の車両の固定次元のサブセットに制限するため、交通情報が犠牲になります。BEV 画像と占有ラスターは、簡単に更新できる固定された方法で環境を表現する簡単な方法を提供します。ただし、混乱や不確実性が高い環境では不正確になる可能性があります。グラフ表現を使用すると、道路利用者間の関係をコンパクトな方法で簡単に表現できます。一方、周囲の道路利用者の数が増えると、グラフの更新が複雑になり、計算コストが高くなる可能性があります。

アクション スペースは連続的または離散的にすることができます。連続的なアクションには、通常、自車両の前後方向の加速度とステアリング角度が含まれます。個別のアクションは、多くの場合、解決される特定のタスクに依存します。たとえば、車線変更シナリオでは、個別のアクションには、左に車線を変更する、現在の道路に留まる、または右に車線を変更することが含まれます。下位レベルのコントローラーは、このアクションを実行するために車両のステアリングと加速を制御します。

ほとんどの DRL 論文は車両のみの交通シナリオに焦点を当てていますが、混合交通シナリオや車両と歩行者の相互作用を扱った論文の数はさらに限られています。移動ロボットの群衆ナビゲーションを扱う研究もあります。[174] では、DRL はマルチエージェント環境でロボットをナビゲートするために使用されます。[175] では、[174] のモデルが、注意ベースのニューラル ネットワークとソーシャル プーリングを使用して改良されました。[176] では、DQN の道路利用者を利用して自動ブレーキ システムが開発されました。著者らは、衝突現場からサンプリングするために、優先エクスペリエンス リプレイ (PER) に似たトラウマ記憶を実装しました。[178] では、DQN の道路利用者が横断歩行者との衝突を回避するように訓練され、さらに歩行者の衝突回避シナリオでドライバーを支援する ADAS システムの開発に使用されました。Deshpande らは、4 層のグリッド状態表現を使用しました。同様のシナリオで、[180] の著者は、連続アクションを使用して SAC 道路利用者を開発しました。SVO コンポーネントを報酬関数に統合することで、向社会的な行動からより攻撃的な行動まで、社会的に一貫したさまざまな行動をとるように車両を訓練できます。

深層強化学習 (DRL) を現実世界のシナリオに導入することは大きな課題に直面しており、未解決の研究領域です。一部の研究では、追加の微調整を行わずに実際のアプリケーションに DRL 戦略を直接実装し、信号のない交差点などのシナリオでの有効性を実証しています。深層学習のサブ分野である転移学習では、現在、シミュレーション環境から現実世界への知識の伝達が研究されています。2 つの主な技術には、ドメイン適応とドメインランダム化があります。ドメインのランダム化では、この方法は、現実世界を特定の状況としてカバーするのに十分な大きさのトレーニング データ セットを取得することを目的としています。ドメイン アダプテーションの目標は、ターゲット ディストリビューションで適切に機能するモデルをソース ディストリビューションから学習することです。

DRL に関連するもう 1 つの問題は、学習ベースの戦略はトレーニング コストが高く、意味解釈を達成するのが難しいことです。最近、一部の研究者は、上記の欠点を解決するために、解釈可能な学習アルゴリズムと生涯学習アルゴリズムに焦点を当てています。

マルチエージェント強化学習

複数の RL 道路ユーザーが現実世界に展開され、相互に対話する場合、問題はマルチエージェント強化学習 (MARL) になります。マルチエージェント システムに対処するには、いくつかのアプローチが可能です。1 つ目のアプローチは、集中コントローラーを使用してフリート全体を管理することです。共同アクション ベクトルを使用してすべての車両を含むように状態次元を拡大すると、問題は再び単一エージェントの問題になる可能性があります。欠点は、状態とアクション空間の次元が増加し、学習がより複雑になる可能性があることです。最近では、問題の次元性の呪縛を克服するためにグラフィック表現が使用されています。レベル k ゲーム理論に触発されたもう 1 つのアプローチは、単一の DRL 学習器を使用しますが、周囲の道路利用者の一部を以前のコピーに置き換えることです。この手法は、競争力のある DRL シナリオで使用されるセルフプレイに似ています。最後のアプローチは、複数の学習者が並行して作業する、問題の定式化に MARL アプローチを採用することです。[187] では、各道路利用者が異なる報酬関数を持つことができるように、道路利用者ごとに個別の集中批評家を学習するマルチエージェントディープ決定論的政策勾配 (MADDPG) 方法が提案されました。詳細については、MARL に関する広範な調査を実施した資料を参照してください。自動運転では、MARL の他の応用例が にあります。

部分的に観察可能なマルコフ決定プロセス

部分的に観察可能なマルコフ決定プロセス (POMDP) は、MDP を一般化したものです。意思決定者がプロセス状態を直接観察できない場合、MDP は部分的に観察可能であるとみなされます。POMDP は計算コストが高くなりますが、現実のさまざまな意思決定プロセスをモデル化できる一般的なフレームワークを提供します。ハードウェアの改良により、自動運転における POMDP アプリケーションの人気はますます高まっています。[190] では、POMDP は群衆の中で移動ロボットをナビゲートするために使用されています。ロボットは、歩行者の可能な将来の目標についての信念を維持します。POMDP は、歩行者がいる場合の自動車の意思決定にも使用されます。POMDP では、自車の周囲の道路利用者が環境の一部としてモデル化され、その意図が信念ベクトルを使用してモデル化されます。[189] では、著者らは、問題を POMDP としてモデル化し、注意ベースのニューラル ネットワーク メカニズムを使用して相互作用をモデル化する、マルチエージェント インタラクションを意識した意思決定戦略を開発しました。POMDP は、交差点でのアンビエント オクルージョン下での意思決定の問題を解決するためにも使用されています。対話型意思決定における POMDP の他の応用については、[193][194] を参照してください。従来の制御方法は通常、センサーの不確実性と計画を順次処理します。状態推定器がセンサーのノイズと不確実性を処理し、決定論的戦略を使用して推定された状態に基づいてアクションを決定します。一方、POMDP ではそのような分離は行わず、信念状態に基づいて方針が決定されます。周囲の道路利用者は、意思決定者 (MARL) として、または個々の道路利用者が活動する環境 (RL または DRL) として明示的にモデル化できます。

8e5c8bccbbd4a5b1555177e52845e07a.png

ゲーム理論モデル

ゲーム理論は、合理的な道路利用者間の戦略的な相互作用を研究する数学的モデルです。ゲーム理論は主に経済学で使用されますが、自動運転にも登場します。特に自動運転においては、動的非協力ゲーム理論が非常に重要です。ゲームに複数の決定が含まれ、決定の順序が重要である場合、ゲームは動的になりますが、各プレイヤーが自分の利益を追求し、その部分が他のプレイヤーの利益と部分的に衝突する場合、ゲームは非協力的になります。動的非協力ゲーム理論には、離散時間ゲームと連続時間ゲームの両方が含まれており、マルチエージェント環境の最適な制御への自然な拡張を提供します。

ゲーム理論では、軌道ゲームに適用できるいくつかの概念を使用して、最適なプレイヤーの仮定の下で均衡解を研究します。ダイナミック ゲームはオープン ループ ゲームとフィードバック ゲームに分けられますが、オープン ループでは、利用可能な情報に基づいて、各プレーヤーがゲームの初期状態に関する情報しか取得できないと想定されます。フィードバック ゲームの場合、各道路利用者はゲームの現在の状態に関する情報を持っています。2 番目のタイプのゲームは自動運転セットアップをより正確に記述していますが、多くの場合、その単純さからオープンループ ソリューションが好まれます。自動運転における一般的な平衡には、開ループ ナッシュ、開ループ シュタッケルベルグ、閉ループ ナッシュ、および閉ループ シュタッケルベルグ平衡が含まれます。このトピックの詳細については、[197] を参照してください。

道路利用者のダイナミクスが、衝突を回避するためなどの一連の制約に従わなければならない場合、平衡は一般化平衡として知られています。一般化された平衡問題の数値解法は [220] で研究されています。開ループのナッシュ均衡定式化の欠点は、プレイヤーが自分の行動が周囲の道路利用者の行動にどのような影響を与えるかを直接推測できないことです。この点に関する最初の単純化は、たとえば [203] で自律ドローン レースの文脈で適用された開ループの Stackelberg 均衡です。シュタッケルベルク コンテストでは、リーダーが最初に行動し、その後に後続のプレイヤーが順番に行動し、優先順位の高いプレイヤーが優先順位の低いプレイヤーがどのように行動を計画するかを考慮することができます。[207] では、著者らは、開ループ Stackelberg ゲームに基づいた自律レースのための逐次デュアル マトリックス ゲーム手法を提案しました。Stackelberg の公式の他の応用例も見つかります。一般化フィードバック ナッシュ均衡問題を解くためのレシピは、[223] にあります。Sadighらは、Stackelberg競争における部分的に観察可能な確率的ゲームとして自律車両と人間の相互作用をモデル化した。人間は自動運転車の計画を推定し、それに応じて行動しますが、自動運転車は人間の行動を間接的に制御することを前提として、自らの行動を最適化します。

一般に、ゲーム理論的アプローチは次の問題に直面します。(1) 計算の複雑さは、道路利用者の数と時間の観点に応じて指数関数的に増加します。(2) 自車上の他の道路利用者の行動を説明する効用関数が仮定されています。既知であり、道路利用者はこれらの報酬関数に従って合理的に行動しますが、ゲーム理論の金融問題では、人間はしばしば合理的に行動しないことが知られています; (3) 道路利用者の行動はランダムである可能性があり、混合または行動的な問題を解決するには、次の計算が必要です。戦略はよりトリッキーになります。当然のことながら、ゲーム理論には、行動の相互依存性や一部の問題の正確な解決策を把握できるという大きな利点もあります。ゲーム理論自動運転の分野の多くの論文は、問題をさらに単純化するか、近似的な解決策を見つけることで、これらの問題を軽減しようとしています。ここで、この分野のいくつかの論文を見て、その単純化された仮定を分析します。

c00f00c2f450c9ebac4a5f991b7fa304.png

レベル k 理論は、ナッシュ均衡の合理的期待の論理を打ち破り、人々は他人が自分よりも複雑ではないと信じていると仮定します。これはレベル k の推論であり、反復プロセスは k ステップ後に停止します。他の道路利用者は、レベル k-1 の参加者としてモデル化されます。レベル k の道路利用者は、他のすべての道路利用者がレベル (k-1) であると想定し、この想定に基づいて予測を行い、それに応じて反応します。[219] では、レベル k の推論が回り道シナリオに適用されます。このアプローチは [206] の RL フレームワークにも組み込まれています。著者らは問題を 2 人の対話する道路利用者に限定し、DQN ベースの RL アプローチを使用して 2 台の車両によるマルコフ ゲームを解きました。[218] では、交差点での競合を解決するためにレベル k 推論が採用されています。著者らは、自車両がレベル k の道路利用者であり、周囲のすべての車両がレベル k-1 以下である状況では、競合が簡単に解決できることを示しています。ただし、両方の道路利用者が同じレベルの場合、衝突の数は増加します。これは、同じ種類の道路利用者がいるシナリオを処理するためにさらなる改善が必要であることを示しており、これは複数の自動運転車の場合に重要です。

計算の複雑さを制御するために、自車と対話するすべての道路利用者のサブセットを決定することで、道路利用者の数を減らすことができます。時間的視点は、リモート視点コントローラーを考慮したり、階層的なゲーム計画を暗示したりすることによって制限することもできます。後者には、短い視点を持つ戦術プランナーと長い視点を持つ戦略プランナーの組み合わせが含まれます。1 つ目は問題のダイナミクスを正確にシミュレートする責任を負い、2 つ目は近似ダイナミクスを使用して戦略を決定する責任を負います。

反復線形二次 (LQ) 手法は、ロボット工学と制御においてますます一般的になってきています。[201] の著者は、この問題を非線形システム ダイナミクスを使用した一般的な差分ゲームとして定式化しました。[202] では、彼らはその方法をフィードバック線形化ダイナミクスを備えたシステムに拡張しました。ゲーム理論の問題を解決するもう 1 つの方法は、反復最良応答を使用して純粋なナッシュ均衡、つまり純粋な戦略におけるナッシュ均衡を計算することです。[216] の著者らは、「感度を強化した」反復最良応答ソルバーを提案しました。[204] では、IBR に基づいたオンライン ゲーム理論的な軌道プランナーが提案されています。プランナーはオンライン計画に適しており、競争の激しいレース シナリオで複雑な動作を示します。Williams らは、2 台の地上車両を密接に制御するための IBR アルゴリズムと情報理論プランナーを提案しました。

[13] では、Schwarting らは、Karush-Kuhn-Tucker 条件を使用した局所単層最適化として最適化問題を再定式化することに基づいた、ナッシュ均衡問題を解くための反復最良応答の代替アプローチを提案しました。[137] では、ゲーム理論を使用して他の車両の意思決定をモデル化しています。彼らは、ポジティブで社会に準拠した運転インタラクションを提供するためのパラレル ゲーム インタラクション モデル (PGIM) を提案しました。環境の不確実性に対処するために、ゲーム理論のナッシュ均衡概念が POMDP に拡張されています。[215] では、著者らは、他の道路利用者の目標と制約について複数の仮定を構築することによって、他の道路利用者の意図に不確実性が存在することを説明しています。

議論と今後の課題

この包括的な調査では、自動運転の進歩に不可欠な 2 つの重要な要素、つまり人間の行動研究とインタラクション モデリングが紹介されています。これらの部分は、自動運転シナリオにおける複雑なインタラクションを理解して最適化するための基礎を形成します。このセクションでは、将来の自動運転研究におけるインタラクティブシナリオの課題と研究の方向性に焦点を当てます。

人間行動研究

自動運転に対する社会の強い要望を受けて、近年、特に自動運転車の文脈において、人間の行動の研究が再び注目を集めています。自動運転車のインタラクション中の歩行者の行動をより深く理解するには、まだ多くの課題を克服する必要があります。

全体として、ドライバーの行動モデルの探求は、輸送システムの安全性と効率性の大幅な向上が期待できる有望な研究分野です。ただし、これらのモデルの開発と検証には、まだかなりの作業が残っています。今後の研究では、ドライバーの心理状態、周囲の環境、路上での他者との相互作用など、より広範囲の要因をカバーする、より包括的なモデルの作成を優先する必要があります。

歩行者の行動研究にとって重要な課題はコミュニケーションです。第一に、ほとんどの研究者は eHMI の有効性について同意していますが、その内容、形式、および観点については依然として合意が得られていません。未解決の問題は、eHMI が擬人化されるべきか、非擬人化されるべきかということです。同様の問題がテキスト eHMI と非テキスト eHMI で発生します。さらに、道路上には複数の歩行者が存在するため、現在の eHMI は主に 1 対 1 の出会いを想定して設計されており、他の歩行者に誤解を与える可能性があります。eHMI の標準化を妨げる同様の問題が数多くあります。一方、車両の運動学などの暗黙的な信号は広く受け入れられており、一般的であり、信頼できるため、その重要な役割を無視することはできません。研究者らは、車両の減速度、横方向の距離、ピッチなどの暗黙の信号を操作して歩行者に影響を与えようと試みてきましたが、安全で効果的なコミュニケーションを確保するには不十分でした。これらの通信方法には、通信情報の正確かつ効果的な送信を証明するための関連する理論的裏付けが欠けています。また、車両の運転挙動設計、主観的・客観的実験計画などの研究手法においても、信頼できる研究パラダイムが存在しないことも問題となっている。さらに、eHMI とインプリシット信号を効果的かつスムーズに組み合わせて、双方の利点を活かす方法も興味深い研究方向です。

もう一つの課題は歩行者の行動研究です。歩行者の意思決定と行動パターンは、交流状況、交通環境、参加者の多様性によって影響を受けます。しかし、これらの側面は現在、十分な研究の注目を集めていません。既存の研究は、変数を制御したり、研究の複雑さを単純化するために、特定の単純な相互作用状況に焦点を当てていることがよくあります。ただし、実際の生活には、多車線の双方向道路または構造化されていない道路の交差点、密集した継続的な交通流に面した交差点、複数の歩行者が道路を横断するシナリオなど、多数の複雑なシナリオが含まれます。さらに、性別、年齢、気晴らし、グループ効果などの歩行者の異質性も、相互作用において重要な役割を果たします。特に、待ち時間や気晴らしなど、影響を与える多くの要因についてまだ合意が得られていません。したがって、十分で信頼できる結果が不足しているため、研究の結論は主に仮定に依存しており、歩行者の道路行動の基本的なメカニズムの理解が不足していることが浮き彫りになっています。

歩行者の行動モデリングに関しては、学習ベースの手法が近年ますます魅力的になってきています。エンドツーエンドのディープ ニューラル ネットワークは、複雑な行動メカニズムを効果的に捉えることができ、歩行者の意図予測と軌道予測の分野で大きな進歩を遂げました。ただし、そのブラックボックス的な性質は無視できません。これらの方法では、堅牢なパフォーマンスを達成するために大量のデータが必要となるため、データが不十分な散発的なケースに対する拡張性が制限されます。さらに、ブラックボックス モデルは意思決定と行動ロジックを説明するのが難しく、モデリングに新たな問題をもたらします。対照的に、社会力モデル、証拠蓄積モデル、ゲーム理論モデルなどの専門家モデルには、強固な心理的および行動的基盤があり、その行動の意思決定ロジックは明確で説明可能です。ただし、これらのモデルのほとんどは、限られたデータセットでのみ検証されているか、まだ研究室での検証段階にあり、広範なエンジニアリング実践が不足しています。したがって、エキスパート モデルの理論は今後さらに改良され、実際の多数のデータセットで広範囲に検証される必要があります。さらに、エキスパート モデルとデータ駆動型モデルには、さまざまな側面で利点があります。将来の傾向としては、両方のモデルを一緒に使用できるバランス ポイントを見つけることが考えられます。

最後に、自動運転に関する文献全体のうち、歩行者の行動を明確に考慮しているのはほんの一部だけであることを考えると、歩行者行動モデルの適用を増やす必要があります。これには、歩行者行動予測、自動運転車の行動設計、そして仮想自動運転車の検証。

インタラクティブなモデリング

自動運転技術が発展し続けるにつれて、インタラクションモデリングの研究は、課題を解決し、より安全で信頼性の高い自動運転車の開発を促進する上で重要な役割を果たすことになります。

自動運転研究において注目を集めている顕著なアプローチの 1 つは、学習ベースの手法の使用です。これらのアプローチには、感覚入力と目的地の知識を自動運転車の動作に直接マッピングするエンドツーエンドのソリューションという魅力があります。ただし、そのようなシステムはブラック ボックスとして動作する可能性があり、モデルの検証で障害や困難が発生した場合に解釈可能性の問題が発生する可能性があります。さらに、運転プロセス全体を完了する、つまり運転プロセス全体を学習するという膨大な作業も、大きな課題を引き起こします。したがって、現在の研究努力では、このタスクをルート計画、知覚、動作計画、制御などのサブタスクに分解し、学習ベースの方法を利用してこれらの部分的な課題に対処しています。

深層強化学習 (DRL) 手法での模倣学習やシミュレーションを通じてインタラクティブな動作を学習する利点も増えています。しかし、課題はまだ残っています。ディープラーニングベースの意思決定のほとんどは、理想的な道路シナリオと周囲環境の完璧な認識を前提としています。ただし、現実世界の状況には、オクルージョン、センサー ノイズ、環境異常が含まれることがよくあります。このような散発的なイベント中にシステムのパフォーマンスを維持し、部分的またはノイズの多い情報を処理することは、現在進行中の研究課題です。不確実性は、センサーのノイズや車両モデルだけでなく、周囲の交通参加者の予測不能な行動からも発生します。さらに、DRL モデルなどのシミュレーション環境でトレーニングされたモデルでは、シミュレーションと現実の間のギャップをどのように埋めるかという問題が生じます。シミュレーションをより現実的にすること、ドメインのランダム化、ドメインの適応など、いくつかの戦略が提案されています。これらの手法は、モデルが現実世界の予測不可能性と複雑さに対処できるように設計されており、学習した内容を路上で効果的に適用できるようになります。

学習ベースの方法に代わるもう 1 つの方法は、モデルベースの方法です。この手法グループには、ゲーム理論モデル、行動モデル (前のセクションで説明)、社会力、および潜在的フィールドが含まれます。

ゲーム理論は、特定のデータ分布に依存せずにさまざまな状況に効果的に対処するための柔軟性と適応性を提供します。その主な利点の 1 つは、特定のシナリオでの道路利用者の計画と予測を処理できることです。ただし、計算上のトレードオフがあります。道路利用者の数と期間が増加するにつれて、計算負荷も増加します。研究者らは、階層型ゲーム理論の定式化、近似解への周囲の道路利用者への最適化問題の制限、レベル K ゲーム理論、非線形最適化ソルバーのパフォーマンスの向上など、ゲーム理論のソリューションを強化するためのいくつかの戦略を提案しています。

一方、社会力法またはポテンシャル場法は、高速な計算ソリューションを提供します。これらは、周囲の道路利用者の行動を予測するために使用でき、自動運転車の制御にも使用できます。社会力モデルは、人間の行動に関する仮定を単純化することに依存しています。彼らは通常、歩行者を固定特性を持つ粒子または道路利用者として扱い、人間の意思決定の認知的側面を無視します。これにより、複雑で動的な人間の行動が非現実的に表現される可能性があります。これらの方法の将来の研究の方向性には、道路規則や交通信号などの認知要素やコンテキスト情報の統合が含まれます。社会力モデルの適応性と予測能力を向上させるための機械学習技術の統合を探ることも、将来の研究の方向性となる可能性があります。

既存の研究は主に車両間の相互作用に焦点を当てており、これは間違いなく自動運転において重要な役割を果たしています。しかし、人間の道路利用者、特に歩行者とのやり取りを処理できる方法を開発することが急務となっています。自動運転の分野が発展し続けるにつれて、ガバナンスとさまざまな道路利用者との間のコミュニケーションと相互作用を明らかにする理論とモデルが技術的に重要になり、自動運転シナリオにおける安全性と効率性を促進することが期待されています。

参考

[1] Crosato, L.、Tian, K.、Shum, HPH、Ho, ESL、Wang, Y.、および Wei, C. (2023)、自動運転車のための社会的インタラクションを意識した動的モデルと意思決定。上級 知性。システム。2300575. https://doi.org/10.1002/aisy.202300575

寄稿者は「自動運転ハートナレッジプラネット」の特別ゲストですので、ぜひ交流にご参加ください!

① ネットワーク全体で独占的なビデオコース

BEV知覚、 ミリ波レーダービジョンフュージョンマルチセンサーキャリブレーションマルチセンサーフュージョン、マルチモーダル3Dターゲット検出車線検出軌道予測オンライン高精度地図ワールドモデル点群3Dターゲット検出ターゲットトラッキング占有、CUDA および TensorRT モデルの展開大規模モデルと自動運転Nerf セマンティック セグメンテーション自動運転シミュレーション、センサー展開、意思決定計画、軌道予測およびその他の学習ビデオ ( QR コードをスキャンして学習します)

109303c68c84551c0a794e08753b7a27.png 動画公式サイト:www.zdjszx.com

② 中国初の自動運転学習コミュニティ

30 以上の自動運転技術スタック学習ルートを含む、約 2,400 人のコミュニケーション コミュニティ 自動運転認識 (2D 検出、セグメンテーション、2D/3D 車線境界線、BEV 認識、3D ターゲット検出、占有、マルチセンサー) について詳しく知りたい融合、マルチセンサーキャリブレーション、ターゲット追跡、オプティカルフロー推定などの技術ソリューション、自動運転測位およびマッピング(SLAM、高精度地図、ローカルオンライン地図)、自動運転計画制御/軌道予測、AIモデル展開自動運転の中心となるナレッジプラネットへようこそ、以下の QR コードをスキャンして、自動運転の中心となるナレッジ プラネットに参加してください。これは、導入に関連するさまざまな問題について業界のリーダーとコミュニケーションできる、真に有益な場所です。 、勉強、仕事、転職など、日常的に論文やコードを共有してください。+ビデオ、コミュニケーションを楽しみにしています!

c0ecd9e9de09cea7a6a10c9b5bf26f21.png

③【自動運転の心臓部】技術交流グループ

The Heart of Autonomous Driving は、ターゲット検出、セマンティック セグメンテーション、パノラマ セグメンテーション、インスタンス セグメンテーション、キー ポイント検出、車線境界線、ターゲット トラッキング、3D ターゲット検出、BEV 認識、マルチモーダル認識、占有に重点を置いた初の自動運転開発者コミュニティです。 、マルチセンサーフュージョン、トランスフォーマー、大型モデル、点群処理、エンドツーエンド自動運転、SLAM、オプティカルフロー推定、深度推定、軌道予測、高精度地図、NeRF、計画制御、モデル展開・実装、自動運転シミュレーションテスト、プロダクトマネージャー、ハードウェア構成、AI求人情報交換など QR コードをスキャンしてグループに参加する Autobot Assistant WeChat 招待を追加します。注: 学校/会社 + 方向 + ニックネーム (グループに参加する簡単な方法)

3fac8c5138b2cf2f754e9e8f5deef9b6.jpeg

④【自動運転の核心】プラットフォームマトリックス、お気軽にお問い合わせください!

ea1f2c04136a4207b496efb28b2fc133.jpeg

おすすめ

転載: blog.csdn.net/CV_Autobot/article/details/135434691