Bステーションチュートリアルアドレス
https://www.bilibili.com/video/BV18b4y1J7a6/
従来のコンピュータビジョン手法
従来のコンピュータ ビジョンでは、Opencvなどの Python ライブラリを使用して、画像のスケーリング、フィルタリング、しきい値セグメンテーションなどの単純な操作を画像に対して実行できます。コンピュータの場合、カラー画像は**赤、緑、青 (RGB)** の 3 つの色に対応する 3 チャネルのマトリックスであり、色の値 ( 0- 255 )写真の場合、従来のコンピュータ ビジョンは、色間隔の設定、フィルタリングの実行など、この 3 次元マトリックスを中心に展開します。
このタイプの視覚処理方法の機能は比較的弱く、緑色のオブジェクトの認識や動的オブジェクトの認識など、いくつかの単純なアプリケーション シナリオを処理できます。しかし、複雑な背景を持つ実際のシーンでは、多くの問題を解決するのが困難です。
推奨される Opencv チュートリアルのアドレス: https://github.com/CodecWang/opencv-python-tutorial
ディープラーニング
人工知能による画像処理のアルゴリズムは数多くありますが、その中で最も古典的なのは畳み込みニューラル ネットワークであり、元の画像に対して継続的な畳み込み演算を実行し、特徴を完全に抽出し、最終的に目的の結果を出力します。この方法は実践によって検証されています。非常に優れた精度のパフォーマンスを備えており、現在の多くのハードウェアでリアルタイムエフェクトを実行できます。
もちろん、元々はNLP (自然言語処理)に適用された最近人気のあるTransformerアルゴリズムなど、より新しいタイプの視覚処理アルゴリズムも登場しています。最近、研究者らは視覚分野でも非常に優れたパフォーマンスを示すことを発見しました。畳み込みニューラル ネットワークの精度のボトルネックを突破し、現場で最高の精度が達成されました。この号のチュートリアルは、依然として詳細な研究に値する古典的なアルゴリズムである畳み込みニューラル ネットワークを中心に展開します。
コンピュータビジョンタスクの分類
分類
分類タスクは、最も古典的な猫と犬の分類など、全体像を分類することです。
猫と犬の分類は、指定した写真をコンピューターに分類させることです。この写真が猫の場合、その写真をモデルに入力すると、出力は猫のカテゴリになると予想されます。分類タスクは画像全体を分類することであることがわかります。画像内に猫と犬の両方が含まれている場合、分類タスクではオブジェクトを見つける必要がないため、明らかに分類を完了できません。分類タスクはコンピュータ ビジョンの最も単純なタスクであり、達成するのが最も難しくなく、そしてもちろん最も単純な機能です。
検出
分類タスクと比較して、検出タスクは画像内の対象物体を正確に位置特定する必要があり、一般に、対象物の位置を決定するために長方形の枠が使用されます。上の図に示すように、写真の中に犬、自転車、車が存在しますが、検出タスクではそれらの位置を正確にフレーム化し、カテゴリを区別する必要があります。検出タスクは、画像内のオブジェクトの特徴を識別することです。分類タスクに比べて、より困難です。これは、私たちが頻繁に要求する要件でもあります。画像内の特徴オブジェクトの位置を正確に決定する必要があります歩行者検出、顔検出など。
分割(Segmentation)
セグメンテーション作業の難易度は再び上がり、位置を決定するだけでなく、PS の切り抜きと同様にオブジェクトの輪郭を描き、背景を除去するフィルタリングも必要になります。たとえば、上の図に示す工業用メーターの読み取り、車線のセグメンテーションなどです。これらのタスクには、モデルとアルゴリズムのより詳細なテストが必要であり、特定の状況で特定の用途があります。