マルチビュー(翻译)の挑戦をピッキングアマゾンで6D姿勢推定のための深い学習を自己監督

要約:

近年では、自動倉庫のロボット技術は徐々に、特にアマゾンチャレンジ(APC)で、焦点となっている。閉塞センサー以来、複雑な環境で可能堅牢なビジョンが必要です(ピックアンドプレースシステム)の完全自動倉庫システムを把持しますノイズやオブジェクトの正確な同定は、大きな物体の場合に置かれます。本稿では、マルチビューRGB-Dデータ、自己監督、データ駆動型のこれらの困難を克服するための方法を学ぶの使用を提案しています。

このプロセスでは、我々は、次に、3Dモデルをフィッティングおよび6Dの姿勢得られたセグメンテーション結果をプリスキャン、ネットワーク(完全畳み込みニューラルネットワーク)を介してシーン分割多重ビューと完全畳み込みを標識しました。ネットワークセグメンテーションを学習するための徹底的なトレーニングが大量のデータを必要とする、私たちは退屈な手動のセグメンテーションをなくし、ラベルを持つ大規模なデータセットを生成するための自己監督(自己教師法)のための方法を提案します。私たちは、この方法は、確実に、さまざまなシナリオで6Dオブジェクトのポーズを推定することができることを実証しています。

I.はじめに

より速く、より経済的な送達を提供する、電力供給者のニーズを満たすために過去20年間、自動倉庫技術の急速な発展。しかし、いくつかのタスクはまだ自動化が困難です。人口棚の外1)指定されたプロダクトIDのインスタンスをピッキングし、トート内に配置し; 2)人口棚に製品の完全なトートを積み込む:アマゾンは、次の2つのタスクに対処します。

この記事では、2016年アマゾンチャレンジロードと配置の作業中に、それぞれ3位と4RDを得るために、プリンストンの視覚システムを説明しています。ビジョンアルゴリズムは、シナリオに挑戦中6Dポーズを見積もることができます。

  • 複雑な環境(クラッタ環境)
  • 自己閉塞(自己閉塞)
  • データの損失(欠損データ)
  • 小さなオブジェクト/オブジェクトの変形(小または変形可能なオブジェクト)
  • 速度(スピード)

可能なオブジェクトのリストと予想される背景 - 私たちのアプローチは、使用上の制約によく知られています。まず、被写界からの図のマルチビュー(マルチビュー画像)分割した後、6Dを取り付けるには、3Dモデルを提起し、セグメント化された点群オブジェクトを取得します。

ニューラルネットワークの深さの訓練は、ラベルデータセットの多くを必要とします。私たちは、自動的に13万枚あたりのピクセルの写真が自己教師研修でタグ付けされた生成します

論文の主な貢献:

  • 堅牢なマルチビュービジョンシステムは、オブジェクトの6Dのポーズを推定します。
  • 自己教師方法を自動的に学習データを標識することによって列車の深いネットワーク。
  • オブジェクトのポーズを推定するためのベンチマークデータセット

II。関連する仕事

ロボットビジョンアルゴリズムは、通常、出力2Dバウンディングボックス、ピクセル・レベルのセグメンテーション、6Dの姿勢を操作します。 

  • オブジェクトセグメンテーション(オブジェクトセグメンテーション)を使用して、チームの勝利2015年APC ヒストグラム投影法方向(ヒストグラム逆投影法)手動で定義された特性。深い学習コンピュータビジョンは、大幅にターゲットセグメンテーションの結果を改善することが最新の研究を示しています。本研究では、深さと、マルチビュー情報(深さ及びマルチビュー情報)とそれらを組み合わせることで、画像セグメンテーションのためのネットワークの学習深度を拡張します 。
  • 姿勢推定(姿勢推定)オブジェクトの姿勢推定2つの基本的な方法があります。最初に一致したモデルの3D及び3Dポイントクラウド、例えば、ICP;第二さ用いて局所記述子例えばSIFTまたは3DMatchとして、。前者は主に有意な変化なしテクスチャオブジェクトまたはシーン等のように、深さセンサと組み合わせて使用されます。一方、高度にテクスチャ及び剛性オブジェクトがローカル記述子の恩恵を受ける。
  • 6D姿勢推定ベンチマーク(6Dのポーズ推定のためのベンチマーク)

III。Amazonは2016年の挑戦をピッキング

2016はAPC機器と倉庫クロールタスクの簡略化されたセットを提案します。カートリッジ実行タスク、ロボットハウジングケース棚上のすべてのアイテムを、実行されたとき、自動的に12の項目フロント棚の2×2メートルの範囲内にロボットを取得し、貯蔵タンク内に配置タスクをクロール上。

IV。システムの説明

マルチビュービジョンシステムRGB-D入力画像(複数のビューからRGB-D)、及び出力6Dロボットのセグメント化された点群およびカートリッジ把持タスクの完了をもたらします。

L 6DOFカメラは、産業用ロボットABB IRB1600id端に取り付けられ、先端点(図1)されています。

 

 

V.6Dオブジェクトの姿勢推定

二段階(図2)におけるシーンオブジェクト姿勢推定:まず、取得した多視点RGB-Dポイントクラウド異なるターゲットからの深さを分割して学習ネットワーク;そして、マッチング3Dポイントクラウドモデルは、分割6Dを推定しますポーズ。

 

 完全にコンボリューション・ネットワークとのA.オブジェクトセグメンテーション

近年では、ネットワークはコンピュータビジョンのタスクに大きな進展の畳み込みを行っています。我々は、シーン内のさまざまなオブジェクトを取得するためにカメラデータを分割するために、このメソッドを使用します。具体的には、2Dオブジェクトセグメンテーションを実現するためにVGG-FCNネットワークを訓練します。FCNにRGB入力画像は、入力画像40と同じ符号ピクセル強度確率マップ(の寸法の組出力密に標識されたピクセルマップ確率)(39個のオブジェクトごとに1つ、および背景に1つ)

セグメンテーション複数のビュー使用してオブジェクト(マルチビューオブジェクトセグメンテーション)

リミット自己閉塞(自己閉塞)によって確立された単一のビュー特定情報と貧反射(悪い反射)クラッタ因子(クラッタ)。表面のマルチアングル情報融合強化によって我々のモデルフィッティング段階で情報の損失の問題を解決するように、識別することができます。我々それぞれが、訓練されたFCNに出力確率マップの40種類をRGB画像入力を表示します。シナリオをスクリーニングした後の予想によれば、我々は、確率の(全ての視点3つの標準偏差の平均確率上記)閾値マップを設定し、画素が閾値未満である無視します。我々は、3次元空間の各オブジェクト・クラス・マスク投影、及び分割点群と組み合わされて正帰還運動マニピュレータの使用を分割しました。

ノイズ削減のポイントクラウド(削除ポイントクラウドノイズ)

ノイズの影響を受け、点群を分割した結果と直接嵌合乏しい走査モデル。:我々は、3つのステップでこの問題に対処する最初、センサノイズ低減する外れ値k個の近傍点によって除去空間分割点群を排除するために、閾値超え、第二、特に対象の境界で、セグメンテーション・ノイズを低減するために我々は、ハウジングボックスの外側の点を削除し、近い背景モデルのプリスキャンモデルの点に、第三の、さらにフィルタリング外れ値のセグメンテーション結果を識別するために、スピンドルに沿った点の最大連続セットによって、セットポイントに隣接していない削除しますすべてのポイント。

ハンドルオブジェクトの重複(加工コピー)

倉庫は通常、同じオブジェクトよりも多く含まれています。分割データRGB-Dは、同一のオブジェクトと同じラベルを持つ2つの異なるオブジェクトであろう。私たちは、在庫や倉庫のシーンがアイテムを期待知っています。我々が使用k-meansクラスタリング種の適切な数にポイントクラウドを分離(k-meansクラスタリングを)。モデルフィッティングで別々に各パケットを処理します。

モデルフィッティング-3D B.(モデルフィッティング)

当社は、プレスキャン推定ポーズに合わせて分割点群モデルの反復最近点(反復最近点、ICP)アルゴリズムを使用します。多くのシナリオでは、ICPアルゴリズムの基礎は無意味な結果が得られます。当社のソリューションは、多くの欠点のために与えられています。

不均一点密度と雲(濃度ムラ)

、より高密度の点群のセンサ面に垂直な光軸曇り点、典型的には、表面色の変化反射赤外スペクトル、ポイントクラウドの密度に影響を与えることができ、緻密な領域を好むためICPアルゴリズムは、濃度ムラが助長されていませんICPアルゴリズムを使用して。均一な平均フィルタ(使用メッシュ3D 3Dグリッド均一な平均フィルタ連続して3次元空間に分布得られた)点群を。

 初期化POSE(初期姿勢)

ICPは初期状態に敏感なローカル最適な反復法、です。

光軸方向に沿ってこの問題を解決するために、我々はなりプリスキャンRGB-Dカメラモデルは、初期の後方ポーズのバウンディングボックスの半分を移動します

ファイン粗にICP(粗いから細かいICPへ)

さらに低ノイズ分割ステージは、結果はまだノイズが存在してもよいです。私たちは、点群の異なるサブセットに二回ICPによってこの問題を解決:距離L2の割合として定義されるICPの反復、反復しきい値は、超過を無視します。最初の90%、45%秒

欠落している深さObjetcsの取り扱いC.

 多くのオブジェクト(典型的な小売倉庫オブジェクト)のAPCの表面は、赤外線深度センサに基づいて問題を引き起こすであろう。多重反射ノイズ、またはリターン、または透明なプラスチックメッシュのプラスチック包装は、登録しなくてもよいです。これらのオブジェクトは取得した点群騒々しい、まばらで、パフォーマンスの姿勢推定方法が悪いです。

我々は、ボクセルの分割グリッドのRGB-D立体画像上のマルチビュー分割(マルチビューセグメンテーション)を使用し、オブジェクトの凸包が推定されます。このプロセスは、実際のオブジェクトの3Dパッケージのマスクを生成します。我々は、(オブジェクトが整列軸であると仮定して)凸包の幾何学的中心と物体の方向を推定するためにこれを使用します

VI。自己監視者研修 (自己教師研修)

メソッドの堅牢性を向上させるために綿密な調査。しかし、それは、モデルのパラメータを設定することを学ぶ研修がかかります。収集し、手作業でラベルされたデータセットは、大きな出費です。倉庫異なるネットワーク絵の深い学習のための既存の大規模なデータセットのほとんどは。

自動ラベル付けとピクセル単位の画像を得るために、3つの観測上の自己監視方法(自己教師方式)を提案します。

  • オブジェクトの単一のバッチでシナリオを訓練するための深いモデルは、マルチオブジェクトでうまく実行するために作成することができます
  • 正確なロボットアームとカメラキャリブレーションは、私たちは自由にカメラビューを制御することができます
  • 背景シーンとカメラ視点知られている単一のオブジェクトの下で、我々は自動的に見通しにより、正確なセグメンテーションマスクを得ることができます

トレーニングセットは136575 RGB-D画像を自動的にマークされ、オブジェクト39を得ることを含みます。

半自動データ収集

単一シェルフまたはストレージボックスに任意の既知のオブジェクトに半自動学習データの数が多い、我々の姿勢を得るために、異なる視点のRGB-D画像を取得し、カメラを移動させるロボットを制御します。棚/収納ボックスカメラ位置とロボットの視点が知られています。RGB-D画像の数百を取得した後、手動リセットオブジェクトの姿勢、およびこのプロセスが数回繰り返されます。

自動データラベル

注目画素レベルのセグメンテーション・タグを取得するために、我々は、背景から分離前景のオブジェクトマスクを作成します。2次元パイプライン及び3Dパイプライン構成(図5)から、全体のプロセス。2Dパイプライン薄くて堅固な物体なし奥行き情報、堅牢な大きな物体の3Dパイプラインずれ。二つのチャンネルを自動注釈オブジェクトマスクを組み合わせた結果。

 

 2Dチャンネルが存在することができる画像ずれを修正するために、2 RGB-D画像を位置合わせするために、2Dマルチモーダル登録を開始します。そしてRGBからHSV、HSV・バイ・ピクセル比較前景および注釈を分離するチャネルの深さに変換したカラー画像を整列させます。

マルチビュー3Dモデルによってプリスキャン面を作成する3Dチャンネル。そして、ICPアルゴリズムとマッチング訓練画像を使用して

ニューラルネットワークを訓練

取得した大規模なトレーニングデータセットを使用して特徴:

  • かなりFCN-VGGのネットワークアーキテクチャを使用します
  • 1000年ウェイオブジェクト分類するためのモデルの事前訓練を受けたImageNet上を使用して、ネットワークの重みを初期化します
  • 微調整運動量と確率的勾配desentを用いた40クラスの出力分類器(各APCオブジェクトと背景1クラスの39個のクラス)を介してネットワーク。

训练两个分割网络(one for shelf bins and one for tote)来最优化

VII. Implementation

视觉系统的所有部件被模块化到reusable ROS packages,

CUDA GPU acceleration

deep models are trained and tested with Marvin

training our models takes up to 16 hours prior to convergence

Our robot is controlled by a computer with an Intel E3-1241 CPU 2.5 GHz and an NVIDIA GTX 1080. The run-time speeds per component are as follows:

  • 10ms for ROS communication overhead
  • 400ms per forward pass of VGG-FCN
  • 1200ms for denoising per scene
  • 800ms on model-fitting per object
  • pose estimation time is 3-5 seconds per shelf bin and 8-15 seconds for the tote

Combined with multi-view robot motions, total vision perception time is 10-15 seconds per shelf bin and 15-20 seconds for the tote

VIII. Evaluation

我们在基准数据集上对不同场景下方法的变体进行评估来理解两个问题(1)在不同输入模态和训练数据集大小下分割表现如何(2)整个视觉系统表现如何

A. Benchmark Dataset

我们的基准数据集“Shelf$Tote”, 包含477个场景下多于7,000 分辨率为640×480 RGB-D图像(Fig. 6)。我们在APC的练习赛和决赛中收集数据,通过在线注释器手动标注6D物体位姿和分割(Fig. 7)。数据反映出多个仓库的困难:杂乱场景下的可反射材料,光照条件变化,局部视图以及传感器限制(噪声和深度损失)

 

 表1和表2总结了实验结果,并强调不同覆盖场景下的不同表现:

  • cptn: during competition at the APC finals
  • environment: in an office (off); in the APC competition warehouse (whs)
  • task: picking from a shelf bin or stowing from a tote
  • clutter: with multiple objects
  • occlusion: with % of object occluded by another objetc, computed from ground truth
  • object peoperties: with objects that are deformable, thin, or have no depth from the RealSense F200 camera

B. Evaluating Object Segmentation

我们测试用于目标分割FCN的几个变体来回答两个问题:(1)是否可以同时利用颜色和深度分割?(2)更多的训练数据是否更有效?

Metrics

利用逐像素精度和召回率,比较FCNs预测的分割结果和ground truth分割标签。 表I显示平均F-scores 。

Depth for segmentation

我们利用HHA feature将深度信息分成三个通道:水平视差、地面高度、重力方向与表面法向夹角。 比较此条件下训练AlexNet和VGG on RGB data, 以及二者结合结果。

我们发现,加入深度信息并没有显著提升分割结果,部分原因可能是由于传感器获取的深度信息含有噪声。另一方面,我们观察到FCN在color data训练时表现更好

Size of training data

深度学习模型取得了明显成功,特别是给出大量训练数据时。然而,物体类别很少时的实例分割,如此大的数据集是否必要。我们随机采样1%和10%的数据建立两个新的数据集,并用它们训练两个 VGG-FCN。我们可以看到,当训练数据基准类别逐步提升时,F-scores显著提升。

C. Evaluating Pose Estimation

我们验证视觉系统几个关键部件是否可以提升性能。

Metrics

Multi-view information

多视角技术使系统克服了自遮挡,其他物体遮挡以及杂乱带来的信息损失。多视角信息缓解了可反射表面的照明问题。

为验证多视角的有效性,我们在基准及上对整个视觉系统进行测试:

  • [Full] All 15 views for bins a1shelf ={0...14} and all 18 views for the tote a1tote={0...17}
  • [5v-10v] 5 views for shelf a2shelf ={0,4,7,10,14} and 10 for the tote a2tote={0,2,4,6,8,9,11,13,15,17}, with a sparse arrangement and a preference for wide-baseline view angles.
  • [1v-2v] 1 view for shelf bins a3 shelf={7} and 2 views for the tote a3 tote={7,13}

结果表明多视角技术可以鲁棒地处理仓库的遮挡和杂乱问题(Table II [clutter] and [occlusion])。

Denosing

Part V 的去噪可以很好地提升性能。去掉这一步骤,平移和旋转地精度分别下降6.0%和4.4%。

ICP algorithm

没有这一预处理过程,平移和旋转精度分别下降0.9%和3.1%。

Performance upper bound

D. Common Failure Models

我们总结了系统中最多的错误模型。

  • The FCN segmentation for objects under heavy occkusion or clutter are likely to be incomplete resulting in poor pose estimation (Fig. 8. e), or undetected (Fig. 9.m and p). This happens with more frequency at back of the bin with poor illumination.
  • Objects color textures are confused with each other. Figure 9.r shows a Dove bar (white box) on top of a yellow Scotch mail envelope, which combined have a similar appearance to the outlet plugs.
  • Model fitting for cuboid objects often confuses corner alignments (marker boxes in Fig. 9.o). This inaccuracy, however, is still within the range of tolerance that the robot can tolerance thanks to sensor-guarded motions.

Filtering failure modes by confidence score

IX. Discussion

两个可能提升系统结果的observations:

Make the most out of every constraint

Designing robotic and vision systems hand-in-hand 

 

おすすめ

転載: www.cnblogs.com/yfqh/p/11862952.html