論文の解釈 | モンテカルロ木探索に基づく触覚ターゲット認識のためのアクティブエンドエフェクターポーズ選択

オリジナル | Wen BFT ロボット

この論文では、タッチのみを使用したアクティブオブジェクト認識のための新しいアプローチを提案します。このアルゴリズムは、モンテカルロ ツリー検索を使用して、物体認識に最適な手首のポーズのシーケンスを選択します。

具体的には、アルゴリズムは問題をマルコフ決定プロセス (MDP) としてモデル化し、観察とアクションを通じてポリシーを最適化します。このアルゴリズムの中心的な考え方は、連続的な触覚機能がロボット間の動きに関連付けられるということです。局所的な特徴は一意ではなく、対称的な場所や同様の曲率で繰り返されます。

オブジェクト上でそれらを離散化すると、大きな状態空間次元とは独立した観測とアクションを条件としてモデル化できる確率分布としてモデル化できる共通の特徴が作成されます。物理エンジンと実際のロボットに関する実験結果は、このアルゴリズムがさまざまな環境で効率的な物体認識を達成できることを示しています。

図 1 左: 実験セットアップ。右: 適応的に選択されたポーズ

01 アルゴリズムはオブジェクト認識に最適なポーズ シーケンスをどのように選択しますか?

このアルゴリズムは、モンテカルロ ツリー検索を使用して、物体認識に最適な手首のポーズのシーケンスを選択します。具体的には、アルゴリズムは問題をマルコフ決定プロセス (MDP) としてモデル化し、観察とアクションを通じてポリシーを最適化します。このアルゴリズムの中心的な考え方は、連続的な触覚機能がロボット間の動きに関連付けられるということです。

局所的な特徴は一意ではなく、対称的な場所や同様の曲率で繰り返されます。オブジェクト上でそれらを離散化すると、大きな状態空間次元とは独立した観測とアクションを条件としてモデル化できる確率分布としてモデル化できる共通の特徴が作成されます。

02 触覚センシングを物体認識に使用する利点は何ですか?

視覚ベースの認識と比較して、物体認識に触覚センシングを使用する利点は、触覚センサーが、暗い、ほこりっぽい、煙が多い、または薄暗い水中環境、透明で反射する物体、覆われた背面など、視覚的に信頼できない環境でも物体認識を実行できることです。 、バッグの中の物など。

さらに、触覚センサーは、視覚では不可能な直接的な物理的外部認識を提供できます。動物では、物理的動作は自然に知覚と組み合わされており、さまざまな能動的な触覚知覚器官を使用します。人間は触るだけで形状を復元することができます。触覚センシングのいくつかの欠点は、より優れたハードウェアによって補うことができますが、他の欠点は、効率的な計画と限られた入力の利用によって補うことができます。

03 論文原理

「問題の定式化」セクションでは、論文の目標と問題の正式な説明が述べられています。具体的には、触覚情報のみを使用して物体認識のための手首のポーズの最小シーケンスを選択することを目的としています。

彼らは認識に既存の触覚オブジェクト記述子を使用し、観察された三角形を 3D ヒストグラムに離散化しました。彼らは問題をマルコフ意思決定プロセス (MDP) としてモデル化し、観察とアクションを通じてポリシーを最適化します。また、大きな状態空間次元とは独立した観測とアクションを条件としてモデル化できる確率分布の概念も導入しています。

最後に、彼らは、2 つの連続した観測の間で最適なアクションを選択できる能動的な確率モデルを導入しました。

A. 記述子

この論文では、著者らは三角形に基づく既存の触覚オブジェクト記述子を認識に使用しています。三角形を観察した後、彼らは三角形を 3D ヒストグラムに離散化しました。具体的には、三角形の 3 つのパラメータ (2 つの辺と 1 つの角) を 3 次元として取り、それぞれを一定数の間隔に分割しました。

次に、観察された各三角形をヒストグラム内のセルにマッピングし、観察されたすべての三角形を 3D ヒストグラムに結合しました。この 3D ヒストグラムは、オブジェクト認識に使用される記述子です。その後の実験では、この記述子を使用して分類器をトレーニングし、オブジェクト認識に使用しました。 

B. マルコフの意思決定

この論文では、著者らは問題をマルコフ意思決定プロセス (MDP) としてモデル化し、観察とアクションを通じてポリシーを最適化します。具体的には、状態空間 X、アクション空間 A、遷移関数 T、報酬関数がすべて有限である有限期間 MDP を使用しました。各タイム ステップ t で、ロボットは状態を観察し、アクションを選択します。次に、ロボットは遷移関数 T に従って状態から状態に遷移し、報酬を受け取ります。ロボットの目標は、期待される報酬の合計を最大化すること、つまり、割引された累積報酬を最大化することです。

各タイム ステップ t で、MCTS アルゴリズムはポリシー ネットワークを使用して各アクションの確率を予測し、モンテカルロ シミュレーションを使用して各アクションの値を評価します。次に、最も高い値を持つアクションを選択し、それをアクション シーケンスに追加します。最終的に、MCTS アルゴリズムは、ロボットが物体認識を達成するために実行する最適なアクションのシーケンスを返します。

C. 確率モデル

この論文では、著者らは 2 つの確率モデルを提案しています。1 つは観測とアクションの間の関係をモデル化するための確率分布で、もう 1 つは 2 つの連続する観測の間で最適なアクションを選択するためのアクティブ確率モデルです。これら 2 つのモデルの違いは、アプリケーション シナリオと目的の違いにあります。

確率分布モデルは、ロボットが観察とアクションに基づいて次の観察の確率分布を予測できるように、観察とアクションの関係をモデル化するために使用されます。このモデルはヒストグラム ベースであり、各状態と観測値をヒストグラム セルにマッピングし、観測されたすべての状態と観測値を 1 つのヒストグラムに結合します。このモデルの目的は、ロボットが環境をよりよく理解し、観察と物体認識のアクションに基づいて最適な一連のアクションを選択できるようにすることです。

アクティブな確率モデルを使用して、ロボットがより迅速に物体を認識できるように、2 つの連続した観察の間で最適なアクションを選択します。このモデルもヒストグラム ベースであり、各状態と観測値をヒストグラム セルにマッピングし、観測されたすべての状態と観測値をヒストグラムに結合します。

次に、ロボットはこのモデルを使用して同時確率分布を計算し、最適なアクションを選択します。このモデルの目的は、ロボットが物体をより速く認識し、限られた時間内で最適なアクション シーケンスを選択できるようにすることです。

したがって、これら 2 つのモデルのアプリケーション シナリオと目的は異なりますが、どちらもヒストグラム ベースの確率モデルです。

図 2 小さなツリーの例。ハイライトされた部分は最大報酬パスを示します。ノード ラベルは、観測名、最近傍距離、ツリーの深さ t、およびヒストグラム内の項目の数です。NN 距離は に反比例します。エッジラベルはアクション名と +1 の報酬です。

D. 実験効果

1. シミュレータ上で、著者らは自分たちの手法を確率論的および貪欲な戦略と比較します。結果は、彼らの方法が物体認識で最も優れたパフォーマンスを示し、他の方法よりも速く物体を認識したことを示しました。

2. 実際のロボットについて、著者はその方法を貪欲な戦略と比較します。結果は、彼らの方法がオブジェクト認識で最も優れたパフォーマンスを示し、貪欲な戦略よりも速くオブジェクトを認識することを示しています。

3. シミュレータ上で、著者らは自分たちの方法を他の視覚ベースの物体認識方法と比較します。結果は、彼らの方法が物体認識で最も優れたパフォーマンスを示し、他の方法よりも速く物体を認識したことを示しました。

4. 実際のロボットについて、著者らはその方法を他の視覚ベースの物体認識方法と比較します。結果は、彼らの方法が物体認識で最も優れたパフォーマンスを示し、他の方法よりも速く物体を認識したことを示しました。

要約すると、著者の方法はシミュレータと実際のロボットの両方で良好な結果を達成し、物体認識において最高のパフォーマンスを発揮します。これらの実験結果は、著者らが提案した手法が有効であり、実用に耐え得ることを示している。

図 3. テスト時にツリー ポリシーによって選択された実際のロボットのアクション。

図4 論文の効果

论文资料:[1]Zhang,MM,Atanasov,et al.モンテカルロツリー検索による触覚オブジェクト認識のためのアクティブエンドエフェクターポーズ選択[J].IEEE INT C INT ROBOT、2017。

さらに面白いコンテンツについては、BFT Robot の公式アカウントにご注目ください。

この記事はオリジナル記事であり、著作権は BFT Robot に帰属します。転載する必要がある場合は、ご連絡ください。この記事の内容についてご質問がございましたら、お問い合わせいただければ迅速に対応させていただきます。 

おすすめ

転載: blog.csdn.net/Hinyeung2021/article/details/131210122