群衆とロボットのインタラクションに関する論文の読書

用紙情報

タイトル: 群衆とロボットのインタラクション: アテンションベースの深層強化学習による群衆認識ロボット ナビゲーション
著者: Changan Chen、Y uejiang Liu
コードアドレス: https://github.com/vita-epfl/CrowdNav
ソース: arXiv
時間: 2019

抽象的な

混雑した空間で動作するロボットにとって、効率的かつ社会規範に準拠した方法で移動することは重要ですが、困難な作業です。最近の研究では、社会協力政策を学習するための深層強化学習技術の威力が示されています。しかし、人口が増加するにつれて、人々は通常、問題を人​​間とコンピュータの一方向の相互作用の問題に緩和してしまうため、協力する能力は低下します。この研究では、人間とロボットの一次相互作用を超えて、群衆とロボットの相互作用 (CRI) をより明示的にモデル化したいと考えています。

私たちは、
(i) 自己注意メカニズムを備えたペアごとの相互作用を再考し、
(ii) 深層強化学習フレームワークで人間とロボットおよび人間と人間の相互作用を共同でモデル化することを提案します。私たちのモデルは、密集した群衆の中で起こる人間と人間の相互作用を捉えており、これはロボットの期待される能力に間接的に影響を与えます。

導入

社会的エチケットをうまくこなすのは難しい仕事です。

エージェント(人間など)間のコミュニケーションはそれほど広範囲ではないため、ロボットは複雑な相互作用(反発力/吸引力など)を伴う可能性のある群衆の進化を感知して予測する必要があります。軌道予測に関する研究では、エージェント間の相互作用をモデル化するためのいくつかの手動またはデータ駆動型のアプローチが提案されています [12]–[15]。ただし、これらの予測モデルを意思決定プロセスに統合することは依然として困難です。

代わりに、強化学習フレームワークを使用して、エージェント間の対話と協力を暗黙的にエンコードする計算効率の高いポリシーをトレーニングしています。最近の研究 [19]-[22] の大幅な進歩にも関わらず、既存のモデルは次の 2 つの側面によって依然として制限されています。 i)
集団の集団的影響は、通常、max-min 演算子などのペアごとの相互作用の単純化された集計によってモデル化されます [19] ] または LSTM [22] は、すべてのインタラクションを完全には表現できない可能性があります;
ii) ほとんどの方法は、人間とロボットの間の一方向のインタラクションに焦点を当てていますが、ロボットに間接的に影響を与える可能性のある群衆内のインタラクションは無視しています。これらの制限により、複雑で混雑したシナリオにおける共同計画のパフォーマンスが低下します。
ここに画像の説明を挿入

背景

関連作業

初期の研究では主に、ロボット ナビゲーションに対する社会的認識を高めるために、適切に設計されたインタラクション モデルを利用しています。
独創的な研究は社会的力 [23] ~ [25] であり、これはシミュレーション環境および現実世界の環境で自律ロボットにうまく適用されています [26] ~ [28]。

インタラクション ガウス プロセス (IGP) と呼ばれる別の方法は、各エージェントの軌道を個別のガウス プロセスとしてモデル化し、相互作用のために個々の GP を結合する相互作用ポテンシャル項を提案しています [18]、[29]、[30]。マルチエージェント設定では、同じ戦略がすべてのエージェントに適用され、RVO [5] や ORCA [6] などの応答方法は、相互の仮定の下で共同の障害物回避速度を求めます。これらのモデルが直面する主な課題は、手作りの機能に大きく依存しており、群衆協力のさまざまなシナリオにうまく一般化できないことです。

別の研究では、模倣学習手法を使用して、望ましい行動のデモンストレーションから政策を学習します。[31]–[33] は、専門家のデモンストレーションを直接模倣することで、さまざまな入力 (深度画像、ライダー測定、ローカル マップなど) をマッピングして操作を制御するナビゲーション ポリシーを開発しています。行動クローニングに加えて、逆強化学習は、最大エントロピー法を使用して人間のデータから潜在的な協力的特徴を学習するために [10]、[11]、[34] で使用されています。これらの研究における学習成果は、デモンストレーションの規模と質に大きく依存しており、リソースを消費するだけでなく、人間が学ぼうとする政策の質も制限されます。私たちの仕事では、モデルトレーニングをホットスタートするために模倣学習を採用しています。

強化学習 (RL) 手法は、ビデオ ゲームで優れたパフォーマンスを達成し始めて以来、過去数年間集中的に研究され、さまざまな分野に適用されてきました [35]。ロボットナビゲーションの分野では、最近の研究では強化学習を使用して生の観察から静的および動的環境における感覚運動ポリシーを学習し[21]、[36]、エージェントレベルの状態情報を使用して社会協力ポリシーを学習しています[19]、[20]。 、[22]。さまざまな数の近隣ノードを処理するために、[19] で報告されている方法は、群衆の最悪のシナリオに対して最適なアクションを実行する最大-最小操作を介して、2 つのエージェントからマルチエージェントの状況に適応します。後の拡張機能では、LSTM モデルを使用して、ロボットからの距離の逆順に各隣接ノードの状態を順次処理します [22]。これらの単純化とは対照的に、群衆の集合的な影響を明示的に捕捉するための新しいニューラル ネットワーク モデルを提案します。

問題の形成

ロボットが n 人の群衆の中をゴールに向かって移動するナビゲーション タスクを考えます。これは、強化学習フレームワークにおける逐次決定問題として定式化できます [19]、[20]、[22]。
各エージェント (ロボットまたは人間) の位置p = [ px , py ] p = [p_x, p_y]p=[ p×pはい]、速度 v = [ v x , v y ] v = [v_x,v_y] v=[ v×vはい]と半径rrr は他のエージェントによって監視できます。ロボットは、目標位置pg p_gpgおよび優先速度vpref v_{pref}v事前_ _ロボットの速度vt v_tを仮定します。va_t のアクションコマンドで使用できます。あるその直後、vt = at v_t = a_tv=あるさあ、しましょうsロボットの状態を表します。wt = [ wt 1 , wt 2 , . . , wtn ] w_t = [w^1_t ,w^2_t , . .. ,w^n_t]w=[ wt1wt2... wt]ということは、当時の人間はtttの状態。ロボットナビゲーションの関節状態はstjn = [ st , wt ] s^{jn}_t = [s_t,w_t]stじーん=[ sw]
ここに画像の説明を挿入

[19]、[20] で定義された報酬関数の定式化に従い、衝突や不快な距離にペナルティを与えながらタスクの達成に報酬を与えます。
ここに画像の説明を挿入

バリューネットワークトレーニング

価値ネットワークは、時間差法、標準的な経験再生、および固定目的ネットワーク技術によってトレーニングされます [19]、[35]。アルゴリズム 1 で説明したように、モデルはまず一連のデモンストレーターの経験を使用した模倣学習によって初期化され (1 ~ 3 行目)、次にインタラクションの経験に基づいて改良されます (4 ~ 14 行目)。以前の研究 [19]、[20] との 1 つの違いは、7 行目の次の状態 S jn t+1 が、線形運動モデルで近似するのではなく、環境の真の値を問い合わせることによって取得され、システム ダイナミクスが軽減されることです。問題のトレーニング。導入中、遷移確率は軌道予測モデル [12]、[13]、[15] によって近似できます。
ここに画像の説明を挿入

問題 (1) に効果的に対処するために、価値ネットワーク モデルは、エージェント間の社会的協力を暗黙的にコード化する最適な価値関数 V* を正確に近似する必要があります。このトラックに関する以前の作業では、群衆のインタラクションが完全にはモデル化されていなかったため、人口が密集したシーンの値推定の精度が低下していました。次のセクションでは、混雑した空間での移動方法を効率的に学習できる、新しい群衆とロボットの相互作用モデルを提案します。

アプローチ

人間が人口密度の高い場所を歩くとき、近くの隣人、特に将来の相互作用に参加する可能性のある隣人の行動を予測することで他の人と協力します。これは、相対的な重要性を計算し、社会に準拠したナビゲーションのために近隣エージェントの集合的な影響をエンコードできるモデルを設計する動機になります。ソーシャル プーリング [13]、[15] およびアテンション モデル [14]、[44]–[48] に触発されて、3 つのモジュールで構成されるソーシャル アテンション ネットワークを導入します。 インタラクション モジュール: 人間とコンピューターの相互作用を明示的にモデル化し、人間のインタラクションをエンコードします
。粗粒度のローカル マップを介したコンピュータ インタラクション。
• プーリング モジュール: セルフ アテンション メカニズムを通じて、インタラクションを固定長の埋め込みベクトルに集約します。
• 計画モジュール: ソーシャル ナビゲーションのためのロボットと群衆の結合状態の価値を推定します。

ここに画像の説明を挿入

パラメータ化

[19]、[22] のロボット中心のパラメータ化に従います。ロボットは原点に位置し、X 軸はロボットの目標を指します。ロボットと歩行者の変形した状態は次のとおりです。
ここに画像の説明を挿入

インタラクションモジュール

各人はロボットに影響を与え、また隣人からも影響を受けます。人間間のすべてのインタラクションペアを明示的にモデル化すると、O(N2) の複雑さが生じます [14]。これは、高密度のシナリオで拡張するポリシーでは計算的に実行不可能です。私たちは、人間とコンピューターの相互作用の粗粒表現としてローカル マップを使用しながら、人間とコンピューターの相互作用を明示的にモデル化するペアワイズ相互作用モジュールを導入することで、この問題に対処します。
ここに画像の説明を挿入

サイズ L の近傍が与えられると、各人物 i を中心とするL × L × 3 マップ テンソルMi iを構築します。M私は図 3 のローカル マップと呼ばれる、隣人の存在と速度をエンコードします。
ここに画像の説明を挿入
多層パーセプトロン (MLP) を使用して、人物 i の状態とマップ テンソルM i M_iを組み合わせます。M私はとロボットの状態は固定長ベクトルei e_iに埋め込まれます。e私は中:
ここに画像の説明を挿入
埋め込みベクトルei e_ie私はは後続の MLP に供給され、ロボットと人間 i の間のペアごとのインタラクション特徴が取得されます。
ここに画像の説明を挿入
ここに画像の説明を挿入

プーリングモジュール

周囲の人の数はシーンによって大きく異なる可能性があるため、任意の数の入力を固定サイズの出力に処理できるモデルが必要です。

Everett ら [22] は、人間のすべての状態をロボットからの距離の降順で LSTM に入力することを提案しています [49]。ただし、最近傍が最も強い影響を持つという基本的な仮定は、常に真実であるとは限りません。速度や方向などの他の要素も、近隣の重要性を正確に推定するために重要であり、その近隣がロボットの目標達成にどのような影響を与える可能性があるかを反映しています。シーケンス内の他のアイテムを見ることでシーケンス内のアイテムへの注意が得られるという自己注意メカニズムの最近の進歩を活用して、我々はソーシャル アテンション プーリング モジュールを提案します。それぞれの隣人の相対的な重要性と人口の全体的な影響についての理解が促進されます。

インタラクティブな埋め込みei e_ie私は注意スコアα i α_iに変換ある私は以下のように:各近傍 i のペアごと
ここに画像の説明を挿入
の相互作用ベクトルhi h_iが与えられるとします。h私はおよび対応する注意スコアα i α_iある私は、群衆の最終的な表現は、すべてのペアの重み付き線形結合です。
ここに画像の説明を挿入

計画モジュール

群集 c のコンパクトな表現に基づいて、協調計画の状態値 v を推定するための計画モジュールを構築します。
ここに画像の説明を挿入

実装の詳細

ローカルマップは各人物を中心とした4×4のマス目で、各マス目は1辺の長さ1mです。関数ϕ e ( ⋅ ) 、ψ h ( ⋅ ) 、ψ α ( ⋅ ) 、fv ( ⋅ ) \phi_e( )、ψ_h( )、ψ_α( )、f_v( )ϕ( ) _( ) _ある( ) fv( )はそれぞれ (150,100)、(100,50)、(100,100)、(150,100,100) です。

私たちはこの戦略を PyTorch [51] に実装し、Adam [52] を使用してバッチ サイズ 100 でトレーニングしました。模倣学習では、ORCA を使用して 3,000 個のデモを収集し、学習率 0.01 で 50 エポックのポリシーをトレーニングしました。強化学習の場合、学習率は 0.001、割引係数 γ は 0.9 です。ε-greedy 戦略の探索率は、最初の 5k エピソードで 0.5 から 0.1 に直線的に減衰し、残りの 5k エピソードでは 0.1 のままです。RL トレーニングには、i7-8700 CPU で約 10 時間かかりました。

この作業では、ロボットが完全な運動学を備えている、つまり任意の方向に移動できることを前提としています。アクション空間は 80 個の離散アクションで構成されます。5 つの速度は (0, vpre f ] の間で指数関数的に分布し、16 の方向は [0, 2π) の間で均一に分布します。

実験

ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qin_liang/article/details/132131969