深層強化学習と多パラメータドメインランダム化に基づく水中マニピュレータの適応的把握に関する研究

出典: 情報と管理

著者: Wang Cong、Zhang Ziyang、Chen Yanzhuang、Zhang Qifeng、Li Shuo、Wang Xiaohui、Wang Sen

導入

水中マニピュレータは、海洋科学研究、海洋工学、捜索救助、サルベージなどで広く使用されており、現在、水中ケーブル駆動車両 (ROV) や有人車両 (HOV) の最も重要なコンポーネントとなっています。 1]。水中マニピュレータは現在、油圧マニピュレータと電動マニピュレータの 2 つのカテゴリに分類されます。このうち電動マニピュレータは主に小型・軽負荷で観測用の小型ROVに多く使用されており、油圧マニピュレータはシールが容易で負荷が大きく応答が速いなどの利点があり、海洋工学分野で広く使用されています。 . 定番の作業道具の一つ。しかし、現時点では、水中マニピュレータの実際の制御方法は主に遠隔操作に基づいており、現在の成熟した産業用マニピュレータと比較すると、その精度と性能指標の間に大きなギャップがあり、特に水中油圧マニピュレータと比較して制御精度が低いです。自律運転における電動ハンドの実用化例は少ない。水中マニピュレータは依然として海洋運用において最も重要なツールの 1 つであるため、その自律運用能力について詳細な研究を行うことは理論的かつ実用的価値が高くなります。

水中マニピュレータの自律動作に関する研究の歴史は古く、国内外で多くの研究が行われている[2-4]。その中で、視覚サーボは水中での自律運用の一般的な方法です [5-6]。典型的な水中作業では、対象物を視覚的に認識・把握するなどの操作を実現できます。固定タスクの事前にプログラムされた方法 [7] と比較すると、ビジュアル サーボにはある程度の柔軟性がありますが、主に一般的な単純なタスクに焦点を当てています。単純な RGB (赤、緑、青) 画像と比較して、3D レーザーはより多くの 3D 情報を提供できるため、複雑なタスクの能力を向上させるのに役立ちます [8] が、システムのコスト、信頼性、および複雑さにもつながります。 。水中マニピュレータの制御計画業務も力・位置複合動作空間制御 [9] やマニピュレータの運動補償 [10] など自律動作の重要な基盤であるが、水中マニピュレータのセンサーや制御精度など、陸上のマニピュレータと同等の精度や効率を実現することは現状では困難です。

強化学習はマルコフ決定プロセスに由来しており、従来の制御理論とは異なるパラダイムであり、初期の強化学習は主に小規模な離散変数問題に適用されました。DeepMind が深層強化学習の理論を提案し、囲碁で顕著な成果を上げて以来 [11]、ルービック キューブの操作学習など、ロボット工学の分野 [12] を含む多くの分野で深層強化学習手法が利用され始めています [13]。 ]、四足ロボットの歩行[14]、物体の投げ[15]、二足歩行ロボットの歩行[16]などの複雑なアプリケーションでは、その効果は従来の方法を超えています。現在、強化学習は水中ロボットの複雑さと水中作業環境に直接関係しているため、水中ロボットの分野ではあまり研究されていません。既存の研究には、AUV 底部制御 [17]、深度制御 [18]、水中ヘビ型ロボットなどがあります。ロボット制御 [19]、トルクと位置の制約に基づく水中マニピュレータ制御 [20] など。したがって、水中ロボットの制御、計画、意思決定における強化学習の応用にはさらなる研究が必要です。

ロボット工学分野における強化学習の応用における重要な問題の 1 つは、シミュレーション環境から実際のロボットに移行する機能、つまり Sim2Real 問題です。関連する研究には、ビジョンベースの移行 [13, 21]、動的パラメータのランダム化 [22]、適応シミュレーションのランダム化 [23-24] など。水中環境は陸上環境に比べて流体力学、浮力、外乱などが複雑かつ変化しやすく、陸上の手法をそのまま水中ロボットに応用するのは一般に困難であるため、水中ロボットの強化学習訓練は一般に困難である。現在、移住に関する研究はほとんどありません。水中ロボットと水中環境の特殊性をどのように分析し、設計して強化学習の訓練をより的を絞ったものにするかは、水中ロボット分野における強化学習の研究と応用にとって非常に重要です。

本稿では、水中マニピュレータの自律動作を研究背景として、強化学習に基づくパラメータ適応能力を備えたコントローラを構築し、水中マニピュレータの特性を詳細に解析して、マニピュレータを含む複数パラメータに基づく領域ランダム化研究を実施する。ダイナミクス、パラメータ、流体力学、外乱、強化学習のアクション空間と状態空間のノイズと遅延など。本稿では、提案手法の有効性を検証するために、強化学習戦略の移行実験を別の新しいロボットシミュレーション環境で実行し、もう一方では、実際の深海油圧マニピュレータでのプール実験と分析。実験により、この論文で提案した方法は水中マニピュレータ操作に優れた適応能力を持っていることが示されました。

1 問題の概要

本稿では、中国科学院の瀋陽自動化研究院(SIA)が独自に開発した7機能深海用油圧マニピュレータ[25]と、中国科学院の2種類の水中電動ハンドの3種類の代表的な水中マニピュレータを対象とする。英国のエディンバラ ロボティクス センター、自主的な宿題研究。現在、水中マニピュレータにはマニピュレータ自体の構造、駆動、センサー、使用環境などに起因する共通の課題があり、その中でも油圧マニピュレータは油圧駆動の複雑さにより、高精度な軌道制御を実現することがより困難となっています。高い。具体的には、水中マニピュレーターに関する現在の問題には次のようなものがあります。

  • 1) 関節誤差(機械構造誤差、戻りストローク誤差、サーボバルブ制御の不感帯、油圧マニピュレータのゼロドリフトなど)

  • 2) 油圧マニピュレータの油圧システムは非常に非線形であり、作業時間、作業深さ、作動油温度などの条件の変化により制御精度が大きく影響されます。

  • 3) 油圧マニピュレータの関節にはアナログ変位センサのみが搭載されており、高精度エンコーダは搭載されていません。

  • 4) 油圧マニピュレータの基本的な制御周波数は低く、センサのフィードバック ノイズは比較的大きくなります。

  • 5) 水中作業環境における流体力、浮力、外乱の影響。

そこで本論文では、強化学習の適用における実際の水中マニピュレータとシミュレーションモデルの差異をどのように解決するかに焦点を当てますが、これは実用化の大きな困難でもあります。

2 研究方法

本論文で提案する手法は主に 3 つの部分から構成されており、図 1 に強化学習部分、複数パラメータ領域のランダム化モジュール、およびマニピュレータ軌道計画モジュールのシステムブロック図を示し、以下の 3 つのサブシステムに分けて説明します。

写真
図 1 システムブロック図

2.1   深層強化学習に基づく制御システム設計

強化学習部分はこのシステムの重要な部分であり、このセクションでは関連する理論的基礎と、状態空間とアクション空間の設計上の問題について具体的に紹介します。

 2.1.1 強化学習の基礎

強化学習の基本定義 [26] では、環境が与えられたとき、エージェント (エージェント) は現在の状態 s∈S に従ってポリシー π(a|s) を通じて特定のアクション a∈A を実行し、その後、特定のアクション a∈A を取得します。報酬 r ∈R。具体的には、各制御ステップで、エージェントは現在の状態 st を観察することでポリシー π からアクションをサンプリングし、環境は次の状態 s'=st+1 に応答し、対応する報酬値 rt+1 を取得します。したがって、強化学習の目標は、期待される E の戻り値を最大化する最適なパラメーター θ を学習することです。

写真

(1)    

で、

写真

、τ=(s0, a0, s1,..., aT-1, sT) は t=0 から t=T までの完全な軌跡、rt は時間 t で収集された瞬間の報酬、γt∈[0, 1]は現時点での割引率です。ポリシー勾配は、強化学習問題を解決するための基本的かつ効果的な方法です [26]。ポリシー勾配の計算は次のとおりです。

写真

(2)    

このうち、dθ(st) は戦略 πθ に基づく状態分布であり、At は利点関数です。

写真

(3)    

この論文のポリシー学習部分では、PPO (近接ポリシー最適化) アルゴリズム [27] を使用します。PPO はモデルフリーのオンライン強化学習アルゴリズムであり、実装が簡単で、トレーニングで安定しており、広く使用されています。PPO の更新戦略は、

写真

(4)    

ここで、目標を最大化するために確率的勾配降下法が使用されます。ここでLは

写真

(5)    

このうち、εはハイパーパラメータ、clipはクリッピング関数を表します。

写真

範囲が (1-ε、1+ε) を超える場合は、新しい戦略と古い戦略の間の更新偏差が大きくなりすぎないように、上限と下限が直接取得されます。

 2.1.2 状態空間とアクション空間

状態空間の設計と状態変数の選択は強化学習にとって特に重要です. 典型的な水中マニピュレータの制御システムの場合, この論文で選択される状態変数にはマニピュレータ関節位置, 速度, マニピュレータ端位置, 姿勢, 線形が含まれます速度、クランプ状態、目標位置、姿勢、最初の 3 つのアクション シーケンスの合計 9 つの変数が含まれており、ベクトルの次元はマニピュレータの状況に応じて変化します。

関節空間からデカルト空間への複雑な非線形マッピングを直接学習することを回避し、強化学習の効率を向上させるために、この論文ではアクション空間の選択はマニピュレーターの終了位置の制御増分 (ax、ay、az) です。グリッパー (または多指ハンド) の制御量 agrasp は 2 つの変数を含み、制御戦略の出力として n 次元ベクトルを形成し、制御周波数は 5 Hz で、関節空間の軌道を計算します。背後のマニピュレータのモーション プランナーを介してリアルタイムでマニピュレータの基盤となる制御システムに送信されます。

2.1.3 報酬機能

本論文の報酬関数は、掴みの成否、マニピュレータの先端とターゲットとの距離、マニピュレータの動作の滑らかさや連続性など、いくつかの側面の影響を考慮したものである。具体的な報酬関数は以下の通りである。

写真

(6)    

で、

写真

アクション制御の報酬では、主にマニピュレーターの動きの範囲をよりスムーズにします。

写真

軌跡の連続性に対する報酬を制御するために、主にマニピュレータに大きな軌跡のジャンプを回避させ、マニピュレータに加速度の突然変異を生成させます; r3=

写真

マニピュレータの端 P1 (x1, y1, z1) とターゲット P2 (x2, y2, z2) の間の距離を表し、反比例します。r4=exp(-100dt2) により、マニピュレータの端がターゲット P2 (x2, y2, z2) に到達することができます。ターゲットをより正確に位置決めしますが、近距離でのみ機能します。r5 は、グラブ成功後のスカラー報酬値 100 です。ω1~ω5 は各報酬値の重みであり、実際の状況に応じて調整する必要があります。

2.2   マルチパラメータドメインのランダム化

ドメイン ランダム化の目的は、トレーニング モデルを初期トレーニング環境からターゲット環境に移行できるようにすることです。ロボット工学の分野では、一般にシミュレーション環境から実際の物理環境への移行を指します。初期シミュレーション環境でのトレーニングのために N 個のランダム パラメーター ξ∈CξN のグループが選択され、ランダムな選択は特定の範囲内で実行されます。したがって、強化学習では通常のトレーニングにパラメーターのランダム化プロセスが追加され、ポリシーのトレーニングの範囲が広くなり、汎化パフォーマンスが向上します。ここでのトレーニングパラメータは式(1)のθからθ*に変更され、強化学習の目標も一連のパラメータξの下での報酬値リターンに変換されます。

写真

(7)    

ここで、τ は ξ に従う一連の軌跡です。Cξ はランダムパラメータ空間を表しており、本論文では 2 章で説明した水中マニピュレータの特性に応じて、その後のランダム化処理を容易にするために関連パラメータを解析します。

2.2.1 運動パラメータ

水中マニピュレータは作業環境などの影響を受け、その動作状態の動的モデルを産業用マニピュレータほど正確かつ安定させることが難しいため、本論文ではマニピュレータとターゲットに関連するいくつかの重要なパラメータをランダム化して、含む:

  • ・各コンロッドの質量

  • ・各関節の減衰係数

  • ・対象物の質量、摩擦係数

  • ・机の高さ

 2.2.2 流体力学的パラメータ

マニピュレーターが水中で動作する場合、流体力の影響も受けます。これが陸上のマニピュレーターとの重要な違いでもあります。ここでは、流体重力 g、流体密度 ρ、流体粘性抵抗係数 β に関するパラメータを追加し、マニピュレータの実際の動作に対する浮力や流体力などのさまざまな影響をシミュレートします。

流体力学シミュレーション自体は非常に複雑であり、高精度なシミュレーション計算を行う専門的なソフトウェアも多数ありますが、本論文では主にロボットの移動過程における流体力の動作過程への影響について考察します。運動に関連する流体密度 ρ と流体粘性抵抗係数 β に依存します。ここで、各コンロッドの形状は等価慣性体として簡略化しており、各マニピュレータのコンロッドは計算を簡略化するために基本的な円筒を使用している。コネクティングロッドは線速度に対して正の方向の力を受けます。 v はローカル座標系でのコネクティングロッドの線速度を表します。 Cd は抗力係数を表します。 A は線速度に対する断面積を表します。 i は水流、i はコンロッドのシリアル番号です。したがって、モリソン方程式 [28] によれば、流体密度 ρ に基づく各コンロッドにかかる受動的力は次のようになります。

写真

(8)    

このうち、vi はローカル座標系における i 番目のリンクのライン進行を表します。

流体の粘度 β に基づいて、力は次のようになります。

写真

(9)    

ここで、D はシリンダーの直径を表します。

関連するパラメータは、後でロボット シミュレータに従って設定されます。

 2.2.3 アクションスペースの応答

マニピュレータの実際の動作では、制御コマンドの送信は通常長いケーブルを経由する必要があり、特に深海ROVの動作モードでは、正確なタイミング制御を保証することが困難です。したがって、この論文では、ランダムな遅延と一定量のノイズを使用して、実際の状況をシミュレートします。

写真

(10)    

このうち、T はランダムな時間を表します。

ランダムノイズσ1は、

写真

(11)    

このうち、at は各ステップの作用、a't はノイズを含む作用、σ1 はガウス分布に従う

写真

(0,0.1)。

2.2.4 状態空間

油圧マニピュレータの関節位置フィードバックにはアナログ信号に基づくポテンショメータが採用されており、元のデータにはノイズが多く、平均フィルタリング後もある程度のノイズが残っています。したがって、本論文では、状態空間にアクション空間と同様の時間遅延とノイズを追加します。

写真

(12)    

ランダムノイズσ2は、

写真

(13)    

このうち、st は各ステップの状態、s't はノイズを含んだ状態、σ2 はガウス分布に従う

写真

(0,0.1)。

2.3    軌道計画モジュール

強化学習モジュールの出力はマニピュレーターのデカルト空間軌道であるため、図 1 に示すように、この論文では軌道計画モジュールが設計されています。低周波制御軌道コマンドを受信した後、デカルト空間での位置増分がマニピュレーターの現在の状態と組み合わされて次のステップの目標位置が決定され、運動学モジュールによって計算され、最後にリアルタイム関節の軌道が取得され、制御システムの基礎となるマニピュレーターに送信されます。

軌道計画モジュールの多用途性を確保するために、実際のマニピュレータのパラメータに従ってマニピュレータの動作モデルが変更され、順運動学および逆運動学ソリューションの計算がリアルタイムで正確かつ効率的になることが保証されます。 。残りの部分には優れたモジュール機能があり、別のロボットに移行するために必要な変更はほんのわずかだけです。さらに、マニピュレータごとに実際の制御インターフェースや制御周波数が異なるため、システムのモジュール性を確保するにはインターフェース部分を抽象化する必要があります。

3 シミュレーション実験

本稿では強化学習のシミュレーション学習環境として MuJoCo [29] を使用する.MuJoCo は、モデリング、速度、精度などの点で優れた性能を備えた優れた物理シミュレーターであり、特に把握タスクにおける物体間の接触力に関して、より正確なシミュレーション計算を実現できます。さらに、MuJoCo は空気または水媒体の流体抵抗などのパラメータをシミュレートできるため、本稿の水中マニピュレータ作業環境のシミュレーション要件を満たします。

3.1  シミュレーションの設定

本稿では、中国科学院瀋陽オートメーション研究所が開発した水中自律運用プラットフォーム[30]と英国エディンバラロボティクスセンターの2台の水中電動マニピュレータを基に、3種類の水中マニピュレータモデルを構築した。図 2 に示すように、MuJoCo 環境。一般的な水中作業では代表的なターゲットが多く、その形状も比較的規則的であるため、本論文での把握ターゲットは立方体と円柱の2種類を基本とします。実際の把持実験を模擬するために、把持対象物をテーブル上に設置する。強化学習のポリシー学習部分には PPO (近接ポリシー最適化) アルゴリズム [27] が採用されており、その関連パラメータを表 1 に示します。

写真
図2 水中マニピュレータの3モデル

写真
表 1 PPO アルゴリズムのパラメータ

この論文では、強化学習による共同トレーニングを実行しながら、MuJoCo シミュレーション環境でマルチパラメーター ドメインのランダム化を実装します。このうち、マニピュレータ動力学パラメータと流体力学パラメータは、強化学習の各サイクルの開始時に一連のパラメータをランダムに選択し、各学習ステップで状態空間とアクション空間のノイズが追加されます。主なパラメータを表に示します。 2. 係数 各パラメータのデフォルト値に基づく比例係数または加算項目です。

写真
表 2 ドメインのランダム化パラメータの選択

各強化学習トレーニング サイクルの開始時に、マニピュレーターとターゲットは位置をランダムに初期化し、残りのパラメーターもランダムに選択されます。各トレーニング サイクルの終了条件は、目標の把握に成功するか、サイクル トレーニング ステップの上限に到達することであり、各トレーニング サイクルは 200 ステップです。トレーニングを並列化することにより、各トレーニング サイクルは約 3 時間になります。

3.2   シミュレーション解析

アルゴリズムのトレーニングと学習の安定性をテストするために、この論文では、PG (ポリシー勾配)、A2C (アドバンテージアクタークリティック)、APPO (非同期近接ポリシー最適化) [27] の 3 つのアルゴリズムを選択し、PPO に基づいて比較します。マルチパラメータ ドメインのランダム化プロセスが 4 つのアルゴリズムのトレーニングに追加され、各アルゴリズムは 3 つのランダム シードを使用してトレーニングし、平均値を取得します。図 3 は、トレーニング プロセス中の報酬戻り値曲線です。図 3(a) は最大報酬値、図 3(b) は平均報酬値、PPO は 1×106 ステップ以内で収束を達成でき、最大報酬は収束後の値は約 9,000、平均リターンは約 7,000 です。他の 3 つのアルゴリズムのうち、A2C は収束しますが不安定で、PG と APPO は収束できません。

写真
図3 トレーニングに対する報酬額

図4はトレーニングプロセス中の把握成功率を示しており、報酬と比較して成功率曲線はトレーニングタスクの効果をよりよく反映していることがわかります。このうち、図 4(a) はトレーニングにおける把握の最大成功率、図 4(b) は把握の平均成功率であり、PPO アルゴリズムは基本的に 1×106 ステップ以内で迅速な収束を達成でき、トレーニングの安定性が高くなります。はさらに高く、他の 3 つのアルゴリズムよりも大幅に優れています。図5にアクションスペースの出力を示します。これは、グリッパーとマニピュレーターの先端のx、y、zの3方向の出力値です。

写真
図4 訓練の成功率

写真
図 5 ネットワーク出力アクションの平均

図 6 から図 8 は 3 種類のマニピュレータの把握訓練結果のスクリーンショットを示しており、3 種類のマニピュレータの構造パラメータは異なりますが、いずれもより優れた把握効果を達成でき、提案手法のロバスト性と一般化が証明されています。 . セックスはもっと良いです。

写真
図6 7機能油圧マニピュレータの掴み結果

写真
図7 軽量HDTマニピュレータの結果の把握

写真
図8 多指ハンドと6自由度ロボットアームの把握結果

4つの実験

ロボティクス分野における強化学習適用の難しさの一つにポリシー移行の効果があるため、上記手法の有効性を検証するために、実験部分を別の異なるプログラムに移行することを含めた2つの側面から検証した。シミュレータの種類と実際のマニピュレータの水中把握実験。

4.1   さまざまなシミュレーション環境での移行実験

Gazebo[32] は、ロボット工学の分野で人気のあるオープンソースのマルチ剛体ダイナミクス シミュレーターであり、ロボット オペレーティング システム (ロボット オペレーティング システム、ROS) [33] とシームレスに統合されており、更新の反復がより高速です。現在主流のロボットシミュレーターの一つ。UUVSimulator[34]は、Gazebo をベースに開発された水中ロボットシミュレーション環境であり、水中環境におけるロボットの流体力、浮力、外乱などを簡単にシミュレーションすることができ、現在オープンソースで人気のある水中ロボットシミュレータです。 。異なるロボット シミュレーション環境間では動的モデリングと物理シミュレーションの原理が異なるため、各シミュレーション間に差異が生じ、Sim2Real での「現実ギャップ」問題の発生につながります。したがって、異なるシミュレーション環境間の移動性をテストすることは、一定の一般化能力も表します。

 4.1.1 環境設定

Sim2Real 移行の全体的なシステム ブロック図を図 9 に示します。ロボットは、URDF (統一ロボティクス記述形式) モデルを通じて Gazebo で物理シミュレーション モデルを確立し、UUVSimulator を通じて流体力学モジュールを作成して流体力学シミュレーション効果をシミュレートします。全体的な制御システムは ROS 環境に基づいて構築されており、戦略の移植と展開を容易にするために完全な運動学計画モジュールが構築されています。したがって、MuJoCo でトレーニングされた強化学習戦略は、Gazebo シミュレーション環境に簡単に導入できます。

写真
図9 Sim2Real移行の全体ブロック図

 4.1.2 実験プロセス

移動実験では、2 種類のターゲットに対してそれぞれ把握テストを実施し、ランダム化パラメータとデフォルトパラメータの学習戦略をそれぞれ 20 回ずつ実行し、実験結果を表 3 に示します。MuJoCo と Gazebo の 2 つのシミュレーション環境のモデリング方法が異なるため、基礎となる物理シミュレーターと使用される流体力学シミュレーション計算も異なるため、直接移行実験の効果は乏しいです。ランダム化パラメータを適用した後、転送効果が大幅に改善され、戦略転送の有効性が検証されました。図 10 は、1 つのキャプチャの実験結果のスクリーンショットです。

写真
表3 Sim2Realキャプチャ成功率

写真
図 10 Gazebo UUVSimulator の移行とキャプチャの実験結果

 4.2 7機能深海油圧マニピュレータ実験

本論文における実際の水中把握実験は、研究グループが初期段階に構築した水中自律運用プラットフォーム[30]をベースとしている。プラットフォームは、深海科学研究用ROV「Starfish 6000」を参考に設計されており、マニピュレータのモデルや仕様も実際のROVと一致しているため、実際の運用を模擬する高い能力を備えています。実験により、本論文で提案した手法の実用化効果を検証することができます。

 4.2.1 実験のセットアップ

[30] から、実験プラットフォームには、油圧システム、水中マニピュレーター、操作支援プラットフォーム (模擬 ROV キャリア)、水中カメラ、水中ライト、その他の付属機器が含まれていることがわかります。などのサブシステム。マニピュレータの制御システムは、モジュール化とその後の拡張に便利な ROS アーキテクチャに基づいて開発されており、主な機能モジュールは、マニピュレータと通信するための強化学習トレーニング戦略と、補助的な運動学、視覚などのモジュールです。

油圧マニピュレータの駆動は電動マニピュレータとは異なり,主にサーボバルブに基づいて制御される.図 11 に 7 機能深海油圧マニピュレータの基本的な制御システムを示す.強化学習戦略コントローラはデータ収集ボードは、マニピュレータの各関節のサーボバルブ電流制御量と位置センサーフィードバックを送受信し、関節位置の閉ループサーボ制御を実現します。

写真
図11 サーボ制御システムを支える7機能深海用油圧マニピュレータ

シミュレーション環境におけるターゲットの位置情報は直接抽出できますが、実際の実験では、本論文では ArUco [35] に基づく視覚測位スキームを採用します。双眼カメラや 3D レーザーなどの視覚測位システムと比較して、このソリューションは単眼カメラ (DEEPSEA 社製 Nano SeaCam 水中カメラ) だけで対象物の正確な位置決めを実現できるため、より簡潔で便利であり、比較的位置決め精度が高く、調査作業が容易です。水中照明とカメラの視野には制限があるため、カメラは手首に取り付けられており、近距離でターゲットを観察するのに便利です。視覚システムのより具体的な詳細は、以前の研究で見つけることができます [36]。この論文では、ターゲットの円柱と立方体を把握して、水中作業で一般的であり、典型的かつ普遍的な円筒形の水中聴音器やサンプラー、ブラック ボックスなどのターゲットをシミュレートします。

 4.2.2 実験プロセス

実験では、カメラとArUco二次元コードシステムを介してターゲットの位置姿勢情報を計算し、ターゲットの座標をマニピュレータの基準座標系に変換してマニピュレータの座標系の1つとして使用します。強化学習の状態入力変数。さらに、マニピュレータのリアルタイム状態フィードバック情報は、マニピュレータの関節空間情報や端のデカルト空間情報などを含む、強化学習の基本状態入力変数としても使用されます。

強化学習の制御戦略は、ターゲット情報を受信した後、マニピュレータの現在の状態と組み合わせて、対応する制御コマンドを 5 Hz の周波数でリアルタイムに出力します。マニピュレータの端で増分制御コマンドを受信した後、モーションはプランナーは、周波数が軌道補間を実行し、同時にリアルタイム計算のために運動学逆解モジュールを呼び出します。基本的な関節空間軌道を取得した後、3次曲線を通じて補間が実行され、加速度、速度、加速度、速度、そして軌道上の位置。

2 種類の水中ターゲットの実際の把持プロセスをそれぞれ図 12 と図 13 に示します。(a) は把持の初期状態、(b) はターゲットに接近している状態、(c) はターゲットの把持中です。 , (d)はターゲットの捕獲に成功した後の終了状態です。シミュレーション環境と同様に、マニピュレータは各把握の開始時に状態を初期化し、ターゲットがマニピュレータの視野内にあることを確認します。マニピュレータが把握を完了すると、事前に設定されたターゲット軌道を実行し、ターゲットが指定された位置に配置され、タスク全体が完了します。

写真
図12 水中円筒掴み実験

写真
図13 水中キューブの掴み実験

強化学習訓練戦略の有効性を十分に検証するために、水中環境において 2 種類のターゲットに対して 10 回の把握実験を実施し、実験結果を表 4 に示します。全体として、ランダム化されたパラメーターを使用した後の戦略把握の成功率は、デフォルトのトレーニング パラメーターを直接使用した場合よりも大幅に高く、シミュレーション環境から実際のロボットに直接展開する際には高度な不確実性があることを示しています。実際のモデリングと制御における油圧マニピュレータの複雑さ。また、立方体よりも円柱の方がサイズ的に有利であるため、実際の掴みの成功率が高くなる。

写真
表4 実際の水中捕獲成功率

4.3   実験分析

強化学習をロボットに適用する場合、主な問題の 1 つは Sim2Real 問題であり、水中環境やシミュレーション環境と比較して、水中ロボットは誤差が大きいため、学習済みモデルの展開と移行が非常に困難です。この論文で提案した手法を検証するために、Sim2Sim (5.1) および Sim2Real (5.2) でテストと検証を実行したところ、さまざまなドメインパラメータのランダム化プロセスを追加した後、トレーニング結果のロバスト性と適応性が向上したことがわかりました。 、実際の水中ロボットに適用できます。

5 結論と今後の展望

本稿では、水中マニピュレータの自律動作のための深層強化学習に基づく一般的な制御システムを提案し、水中マニピュレータの現状の問題点を詳細に解析し、多パラメータ領域のランダム化と強化学習を組み合わせた制御手法を提案する。マニピュレータシステムの全体的な動作パフォーマンスを向上させるために、強化学習モジュールを基礎となる制御システムと組み合わせて全体的な閉ループ制御を実現し、直接的なエンドツーエンド強化の安定性と信頼性が不十分であるという問題を回避します。実際にロボットを制御しながら学習します。最後に、構築されたシミュレーション環境と実際のロボットの実験により、この論文で提案された方法の有効性が検証され、その後の実際のエンジニアリング応用のための良好な基盤が築かれます。

この論文の研究作業は主に、実際の海底の底に設置された ROV または HOV の操作シナリオと同様の、固定ベースの下でのマニピュレータ操作の問題を目的としていますが、一部の複雑な海底環境では、ROV/ HOV は着底条件が整っていないため、浮遊状態での動作は特に重要です。今後、ROV船に搭載された水中マニピュレータの浮遊状態での動作問題についてさらに検討を進めていくと、システムの不安定性がさらに改善されるため、全体の制御難易度が大幅に上昇することになる。強化学習制御系は今後の検討課題。

免責事項:公式アカウントに転載された記事や写真は、参考や議論のための非営利の教育および科学研究を目的としたものであり、彼らの見解を支持したり、その内容の信頼性を確認したりするものではありません。著作権は原著作者に帰属しますので、転載原稿に著作権等の問題があった場合は、速やかに削除のご連絡をお願いします。

「人工知能技術とコンサルティング」をリリース

おすすめ

転載: blog.csdn.net/renhongxia1/article/details/132223560