コンピュータビジョンに基づくロボットビジョン:ロボットビジョンの理解と応用を実現

著者: 禅とコンピュータープログラミングの芸術

1. はじめに

現在、人類は画像データの収集と処理において大きな進歩を遂げています。テクノロジーの継続的な反復アップグレードにより、マシン ビジョン システムも急速に発展しています。人工知能分野の研究者は、これらの技術をロボットの視覚処理などの産業分野に応用しています。ロボット自体は動的で変更可能なオブジェクトであるため、環境の変化に応じてその視覚入力は常に更新されます。ロボットが周囲の世界のさまざまな情報をどのように正確に識別、追跡、理解できるようにするかが非常に重要な課題となっています。

2. 関連研究

人間は日常生活の中で、目で見る物、聞こえる音、体の動きなど、多くの視覚情報を認識しています。機械式の産業用生産ロボットの場合、センサーから得られる情報を通じてのみ動作制御を行うことができ、人間の視覚システムを完全にシミュレートすることはできません。したがって、ロボットに人間と同様の視覚認識能力を持たせ、さらに自律的な意思決定能力とタスク実行能力をどのように持たせるかは依然として重要なテーマです。

現在、主流の方法論は主に深層学習に基づくターゲットの検出、追跡、分類などの方法に焦点を当てています。ただし、これらの方法にはまだいくつかの制限があります。第一に、大量のトレーニング データが必要であり、手動によるアノテーションは複雑で時間がかかり、エラーが発生しやすいこと、第二に、特に高解像度画像では検出速度が遅いこと、最後に、モデル間に一貫性がないためです。 、異なるアルゴリズム間の結果の差が大きすぎます。したがって、統合され、効率的で、正確で、将来性のあるマシン ビジョン システムをどのように設計するかが、現在の研究における重要な課題となっています。

近年、人工知能の分野の複数の学者がさまざまな視覚的手法を提案しています。たとえば、2017 年に CVPR で公開された YOLOv3 は、畳み込みニューラル ネットワーク (CNN) を使用してオブジェクトを検出し、オブジェクトの境界ボックスとクラスの確率分布を回帰します。その後、Facebook が提案した物体検出の DSOD 手法は、複数のディープネットワークを積み重ねることで性能を向上させました。2019 年に ICCV で公開されたマスク R-CNN は、Faster RCNN を基礎として使用しています

おすすめ

転載: blog.csdn.net/universsky2015/article/details/131821195