ターゲット検出アルゴリズムと一般的に使用されるライブラリの概要

物体検出は、画像内の物体を発見して識別するプロセスであり、ディープラーニングと画像処理の分野における重要な成果の 1 つです。オブジェクトの位置特定を作成する場合、オブジェクトを識別する一般的なアプローチは境界ボックスを使用することです。このアプローチは非常に汎用的であり、複数の特定のオブジェクトを認識および検出するようにオブジェクト検出モデルをトレーニングできます。

通常、物体検出モデルは、特定の物体の存在を検出するようにトレーニングされます。構築されたモデルは、画像、ビデオ、またはリアルタイム操作に適用できます。物体検出は、深層学習手法や最新の画像処理技術が登場する前から広く注目を集めていました。SIFT や HOG などの特定の方法とその特徴およびエッジ抽出技術は物体検出に成功していますが、この分野では他の競合他社は比較的少数です。

畳み込みニューラル ネットワーク (CNN) の導入とコンピューター ビジョン テクノロジーの開発により、物体検出は現在の時代でますます一般的になってきています。深層学習手法によってもたらされたターゲット検出の新しい波は、私たちに無限の可能性を示しています。

物体検出では、各カテゴリの特殊かつ固有のプロパティを利用して、目的の物体を識別します。正方形を探す場合、物体検出モデルは垂直の角を探すことができるため、各辺の長さが等しい正方形が形成されます。円形のオブジェクトを探す場合、オブジェクト検出モデルは、特定の円形エンティティを作成できる中心点を探します。これらの認識技術は、顔認識やオブジェクト追跡に使用されます。

この記事では、さまざまな物体検出アルゴリズムとライブラリについて説明します。

ターゲット検出の応用シナリオ

日常生活において、ターゲット検出は広く使用されています。たとえば、スマートフォンは顔認識によってロック解除されたり、店舗や倉庫のビデオ監視で不審なアクティビティが特定されたりします。

以下に、物体検出の主な用途をいくつか示します。

  • ナンバープレート認識: 物体検出と光学式文字認識 (OCR) テクノロジーを組み合わせて、車両上の英数字を識別します。物体検出は、画像をキャプチャし、特定の画像内の車両を検出するために使用されます。モデルがナンバー プレートを検出すると、OCR テクノロジーが 2D データを機械エンコードされたテキストに変換します。
  • 顔の検出と認識: オブジェクト検出の主な用途の 1 つは顔の検出と認識です。最新のアルゴリズムの助けを借りて、画像やビデオ内の顔を検出できます。ワンショット学習手法のおかげで、たった 1 枚の学習済み画像からでも顔を認識できるようになりました。
  • オブジェクト追跡: 野球やクリケットの試合を観戦しているとき、ボールが遠くまで飛んでしまうことがあります。このような状況では、ボールの動きとボールが移動する距離を追跡すると便利です。この目的を達成するために、オブジェクト追跡により、ボールの動きの方向に関する継続的な情報が得られます。
  • 自動運転車: 自動運転車の場合、運転中に車両の周囲のさまざまな要素を研究することが重要です。自動運転車の優れたパフォーマンスには、複数のカテゴリに基づいてトレーニングされた物体検出モデルが不可欠です。
  • ロボット工学: 持ち上げ、ピックアンドプレース操作、その他のリアルタイム作業などの多くのタスクはロボットによって実行されます。ロボットが物体を検出してタスクを自動化するには、物体の検出が不可欠です。

2010 年代初頭にディープラーニングが普及して以来、物体検出の問題を解決するために使用されるアルゴリズムの品質は向上し続けています。最も一般的なアルゴリズムを調査し、特定のシナリオでのアルゴリズムの仕組み、利点、落とし穴について理解します。

1. 配向勾配のヒストグラム (HOG、配向勾配のヒストグラム)

導入

方向勾配ヒストグラム (HOG) は、1986 年に初めて登場した最も古い物体検出方法の 1 つです。その後 10 年間でいくつかの発展がありましたが、このアプローチが多くのコンピューター ビジョン関連タスクで普及し始めたのは 2005 年になってからでした。HOG は特徴抽出機能を使用して画像内のオブジェクトを識別します。

HOG で使用される特徴記述子は画像部分の表現であり、最も必要な情報のみが抽出され、他の内容は無視されます。特徴記述子の機能は、画像全体のサイズを配列または特徴ベクトルの形式に変換することです。HOG では、勾配配向プロセスを使用して、画像の最も重要な部分を特定します。

アーキテクチャの概要

ここに画像の説明を挿入します

HOG の全体的なアーキテクチャを理解する前に、まず HOG がどのように動作するかを理解しましょう。画像内の特定のピクセルについて、垂直方向と水平方向の値を考慮して勾配ヒストグラムを計算し、特徴ベクトルを取得します。勾配の大きさと勾配角度を使用すると、その周囲の他のエンティティを水平方向と垂直方向に探索することで、現在のピクセルの明確な値を取得できます。

上の画像に示すように、特定のサイズの画像セグメントを考えます。最初のステップは、画像全体の計算を 8 × 8 セルの勾配表現に分割して勾配を見つけることです。取得した 64 個の勾配ベクトルを使用して、各セルを角度間隔にセグメント化し、この領域のヒストグラムを計算できます。このプロセスにより、64 個のベクトルのサイズが 9 個の値という小さなサイズに縮小されます。

各セルの 9 ポイントのヒストグラム値 (間隔) を取得したら、セル ブロックのオーバーラップの作成を選択できます。最後のステップでは、特徴ブロックを形成し、取得した特徴ベクトルを正規化し、すべての特徴ベクトルを収集して全体的な HOG 特徴を取得します。

HOGの功績

  1. 物体検出を実行するための機能記述子を作成しました。
  2. サポート ベクター マシン (SVM) と組み合わせて、高精度のオブジェクト検出を実現できます。
  3. 各位置での計算にスライディング ウィンドウ効果を作成します。

考慮すべき点

制限事項 - 方向勾配ヒストグラム (HOG) は物体検出の初期段階では非常に革新的でしたが、この方法には多くの問題があります。画像内の複雑なピクセルの計算は非常に時間がかかり、一部の物体検出シナリオではうまく機能しません。

HOG をいつ使用するか?

HOG は通常、オブジェクト検出の最初の方法として、他のアルゴリズムとそれぞれのパフォーマンスをテストするために使用する必要があります。それにもかかわらず、HOG はほとんどの物体検出や顔の特徴認識においてかなりの精度で重要な用途を持っています。

2. 領域ベースの畳み込みニューラル ネットワーク (R-CNN)

導入

領域ベースの畳み込みニューラル ネットワーク (R-CNN) は、HOG や SIFT などの以前の方法と比較して物体検出プロセスが改善されました。R-CNN モデルでは、選択的な特徴を使用して、最も重要な特徴 (通常は約 2000 の特徴) を抽出しようとします。最も重要な特徴抽出を選択するプロセスは、より重要な領域の提案を取得できる選択的検索アルゴリズムの助けを借りて実現できます。

R-CNNの作業プロセス

ここに画像の説明を挿入します

選択的検索アルゴリズムのワークフローは、最も重要な領域提案を選択し、特定の画像上で複数のサブセグメントが生成されるようにし、タスクに適した候補を選択することです。その後、貪欲アルゴリズムを使用して有効な候補をマージし、より小さなフラグメントを適切なより大きなフラグメントに結合できます。

選択的検索アルゴリズムが正常に完了したら、次のタスクは特徴を抽出して適切な予測を行うことです。その後、最終的な候補提案を生成し、畳み込みニューラル ネットワークを使用して、n 次元 (2048 または 4096) の特徴ベクトルを出力として作成できます。事前トレーニングされた畳み込みニューラル ネットワークの助けを借りて、特徴抽出タスクを簡単に実装できます。

R-CNN の最後のステップは、画像に対して適切な予測を行い、それに応じて境界ボックスにラベルを付けることです。各タスクで最良の結果を得るために、各タスクの分類モデルを計算することによって予測が行われ、提案された領域の境界ボックス分類を修正するために回帰モデルが使用されます。

R-CNN の問題

  1. 事前トレーニングされた CNN モデルを使用すると特徴抽出は効率的ですが、現在のアルゴリズムを使用すると、すべての領域提案と最終的に最適な領域を抽出するプロセス全体が非常に遅くなります。
  2. R-CNN モデルのもう 1 つの大きな欠点は、トレーニング速度が遅いだけでなく、予測時間が長いことです。このソリューションでは大量のコンピューティング リソースの使用が必要となり、プロセス全体の実現可能性が高まります。したがって、全体的なアーキテクチャは非常に高価であると考えられます。
  3. 場合によっては、最初のステップでは改善ができないため、候補の選択が不十分になる場合があります。これにより、モデルのトレーニング時に多くの問題が発生する可能性があります。

R-CNN をいつ使用するか?

R-CNN は HOG オブジェクト検出方法に似ており、オブジェクト検出モデルのパフォーマンスをテストするための最初のベースラインとして使用する必要があります。画像やオブジェクトの予測には予想よりも時間がかかる場合があるため、多くの場合、最新バージョンの R-CNN を使用することが推奨されます。

高速 R-CNN (高速 R-CNN および高速 R-CNN)

導入

R-CNN モデルは物体検出において理想的な結果を達成しますが、速度の点でいくつかの大きな欠点があります。この問題を解決するために、Fast R-CNN や Faster R-CNN などの高速な手法が導入されました。

Faster R-CNN と Fast R-CNN はどちらも R-CNN ファミリの物体検出アルゴリズムです。これらは、パフォーマンスと速度の点で元の R-CNN よりも向上しています。2 つの方法の簡単な比較は次のとおりです。

高速 R-CNN

  1. 速度: 高速 R-CNN は、画像全体に畳み込みニューラル ネットワークを適用することでサブ領域ごとの繰り返し計算を回避するため、元の R-CNN よりも高速です。
  2. RoI プーリング: Fast R-CNN では、事前トレーニングされたモデルと選択的検索アルゴリズムの入力から特徴を抽出する特別な技術である、関心領域 (RoI) プーリングが導入されています。
  3. エンドツーエンドのトレーニング: 高速 R-CNN はエンドツーエンドでトレーニングできます。つまり、段階的なトレーニングを必要とせずに、ネットワーク全体を一度にトレーニングできます。
  4. 制限事項: Fast R-CNN は依然として選択的検索アルゴリズムを使用して領域提案を生成するため、速度のボトルネックが発生する可能性があります。

より高速な R-CNN

  1. 速度: 高速 R-CNN は、主に領域提案ネットワーク (RPN) の導入により、高速 R-CNN より高速です。
  2. 領域提案ネットワーク: 高速化 R-CNN は、選択的検索アルゴリズムを RPN に置き換えて、領域提案をより速く生成します。
  3. エンドツーエンドのトレーニング: Fast R-CNN と同様に、Faster R-CNN もエンドツーエンドでトレーニングできます。
  4. パフォーマンス: 高速化 R-CNN は、アンカー ボックスの複数のスケール、サイズ、アスペクト比を考慮しているため、物体検出タスクで高い精度を示します。

つまり、Faster R-CNN は Fast R-CNN の改良版であり、主に領域提案ネットワーク (RPN) を導入することで領域提案の生成プロセスを高速化します。これにより、Faster R-CNN は、Fast R-CNN と比較して速度とパフォーマンスの点で向上します。

より高速な R-CNN アーキテクチャ

ここに画像の説明を挿入します

Faster R-CNN は、R-CNN ファミリの最高のバージョンの 1 つであり、パフォーマンスと速度が大幅に向上しています。R-CNN および Fast R-CNN モデルは選択的検索アルゴリズムを使用して領域提案を計算しますが、Faster R-CNN は優れた領域提案ネットワークを導入します。領域提案ネットワーク (RPN) は、画像に対して広範囲かつマルチスケールの計算を実行することで効率的な出力を生成します。

領域提案ネットワークにより、エッジ コンピューティング時間が大幅に短縮され、通常は画像あたりわずか 10 ミリ秒しかかかりません。ネットワークは、各ピクセルの基本的な特徴マップを抽出できる畳み込み層で構成されます。特徴マップごとに、スケール、サイズ、アスペクト比が異なる複数のアンカー ボックスを生成します。各アンカー ボックスに対して、クラス固有のバイナリ予測を行い、対応する境界ボックスを生成します。

次に、非最大抑制を使用して、特徴マップ内の重複する不要な情報を除去します。非最大抑制の出力は対象領域を通過し、残りのプロセスと計算は Fast R-CNN の作業と同様です。

Fast R-CNN の利点と制限

アドバンテージ

  1. 速度: 高速 R-CNN は、元の R-CNN と比較して速度が大幅に向上しています。これは主に、画像全体に畳み込みニューラル ネットワークを適用し、サブ領域ごとに繰り返し計算を回避するためです。
  2. RoI プーリング: Fast R-CNN では、事前トレーニングされたモデルと選択的検索アルゴリズムの入力から特徴を抽出する特別な技術である、関心領域 (RoI) プーリングが導入されています。
  3. エンドツーエンドのトレーニング: 高速 R-CNN はエンドツーエンドでトレーニングできます。つまり、段階的なトレーニングを必要とせずに、ネットワーク全体を一度にトレーニングできます。
  4. 精度: 高速 R-CNN は、アンカー ボックスの複数のスケール、サイズ、アスペクト比を考慮しているため、物体検出タスクで高い精度を示します。

制限

  1. 領域提案: 高速 R-CNN は依然として選択的検索アルゴリズムを使用して領域提案を生成しますが、これが速度のボトルネックにつながる可能性があります。
  2. リアルタイム アプリケーション: Fast R-CNN の速度はオリジナルの R-CNN に比べて向上していますが、リアルタイム アプリケーションでは、依然として厳しいリアルタイム要件を満たすことができない可能性があります。これらのアプリケーション シナリオでは、YOLO や SSD などのより高速な検出方法を検討できます。
  3. コンピューティング リソース: Fast R-CNN は速度が向上しましたが、特に高解像度の画像を処理する場合には、依然としてより多くのコンピューティング リソースが必要です。
  4. 小さなオブジェクトの検出: 高速 R-CNN は、特徴抽出プロセスで小さなオブジェクトの情報損失が発生する可能性があるため、小さなオブジェクトを検出する場合にはうまく機能しない可能性があります。この問題に対処するには、Feature Pyramid Networks (FPN) などの他の方法を使用してモデルを改善してみることができます。

Faster R-CNN の利点と制限

アドバンテージ

  1. 速度: R-CNN および Fast R-CNN と比較して、Faster R-CNN は速度が大幅に向上しています。これは主に領域提案ネットワーク (RPN) の導入によるものです。
  2. 精度: 高速化 R-CNN は、アンカー ボックスの複数のスケール、サイズ、アスペクト比を考慮しているため、物体検出タスクで高い精度を示します。
  3. エンドツーエンドのトレーニング: より高速な R-CNN をエンドツーエンドでトレーニングできるため、段階的なトレーニングを必要とせずにネットワーク全体を一度にトレーニングできます。

制限

  1. コンピューティング リソース: Faster R-CNN の速度は向上しましたが、特に高解像度の画像を処理する場合には、依然としてより多くのコンピューティング リソースが必要です。
  2. リアルタイム アプリケーション: Faster R-CNN の速度は以前のバージョンに比べて向上しましたが、リアルタイム アプリケーションでは、依然として厳しいリアルタイム要件を満たすことができない可能性があります。これらのアプリケーション シナリオでは、YOLO や SSD などのより高速な検出方法を検討できます。
  3. 小さなオブジェクトの検出: 高速化された R-CNN は、特徴抽出プロセスで小さなオブジェクトの情報損失が発生する可能性があるため、小さなオブジェクトを検出する場合にはうまく機能しない可能性があります。この問題に対処するには、Feature Pyramid Networks (FPN) などの他の方法を使用してモデルを改善してみることができます。

シングルショットマルチフレーム検出器 (SSD)

導入

シングルショット マルチフレーム検出器 (SSD) は、物体検出タスクのリアルタイム計算を実現する効率的な方法の 1 つです。Faster R-CNN 方式と比較して、リアルタイム タスクをより高速に処理でき、1 秒あたり最大約 7 フレームを処理でき、リアルタイム アプリケーションのニーズを満たします。

SSD は、1 秒あたりのフレーム数を 5 倍近く増やすことで、Faster R-CNN メソッドの時間のかかる問題を解決します。領域提案ネットワークを放棄し、代わりにオブジェクト検出にマルチスケール機能とデフォルト ボックスを使用します。

アーキテクチャの概要

SSDアーキテクチャ

SSDのアーキテクチャは主に3つの部分に分かれています。1 つ目は特徴抽出段階で、主要な特徴マップを選択します。アーキテクチャのこの部分には完全な畳み込み層のみが含まれ、他の層は含まれません。必要な特徴マップをすべて抽出したら、次のステップは検出ヘッドの処理です。これには完全な畳み込みニューラル ネットワークも含まれています。

ただし、検出ヘッドの第 2 段階でのタスクは、画像の意味論的な意味を見つけることではなく、すべての特徴マップに最適な境界マップを作成することです。これら 2 つの重要な計算段階の後、最終段階では非最大抑制層を通過して、バウンディング ボックスの繰り返しによって引き起こされるエラー率を低減します。

SSDの制限事項

SSD はパフォーマンスを大幅に向上させますが、画像の解像度が低下するため、画像の品質が低下します。小規模なオブジェクトの場合、SSD アーキテクチャのパフォーマンスは一般に Faster R-CNN よりも劣ります。

SSD を使用する場合

通常、シングルショット検出器が推奨される方法です。シングルショット検出器を選択する主な理由は、精度はそれほど重要な問題ではなく、より大きなオブジェクトを検出するために画像の高速予測に重点を置くことです。ただし、オブジェクトが小さく、より正確な予測が必要な場合は、他の方法を考慮する必要があります。

5. YOLO(一度しか見ない)

初心者向けのYOLOターゲット検出の概要

6.網膜ネット

導入

RetinaNet は、2017 年に発売されたターゲット検出モデルです。これは、他の一般的なターゲット検出アルゴリズムを上回り、当時最高のシングルショットターゲット検出モデルの 1 つと考えられていました。Yolo v2 および SSD モデルと比較すると、RetinaNet は同じ速度を維持しながら精度の点で R-CNN ファミリと競合します。RetinaNet はその効率的かつ正確な特性により、衛星画像の目標検出などの分野で広く使用されています。

アーキテクチャの概要

RetinaNet アーキテクチャ

RetinaNet のアーキテクチャは、これまでのシングルショット検出器の問題点をある程度バランスさせて、より効果的かつ効率的な結果を生み出します。このモデル アーキテクチャでは、従来のクロスエントロピー損失の代わりに焦点損失が使用され、YOLO や SSD などのアーキテクチャにおけるクラスの不均衡の問題が解決されます。RetinaNet モデルは 3 つの主要コンポーネントで構成されます。

RetinaNet の構築は、ResNet モデル (具体的には ResNet-101)、Feature Pyramid Network (FPN)、および焦点損失の 3 つの要素に基づいています。フィーチャー ピラミッド ネットワークは、以前のアーキテクチャの欠点のほとんどを克服する最良の方法の 1 つです。低解像度画像の意味的に豊富な特徴と、高解像度画像の意味的に弱い特徴を組み合わせます。

最終出力では、前述した他の物体検出方法と同様の分類モデルと回帰モデルを作成できます。分類ネットワークはマルチクラス予測を行うために使用され、回帰ネットワークは適切な境界ボックスを予測するために使用されます。RetinaNet について詳しく知りたい場合は、以下のリンクにある記事またはビデオ ガイドを参照してください。

RetinaNet をいつ使用するか?

RetinaNet は現在、さまざまなタスクにおいて最適な物体検出方法の 1 つです。さまざまなタスクのシングルショット検出器の代替として使用して、高速で正確な画像結果を得ることができます。

ターゲット検出ライブラリ

1.イメージAI

導入

ImageAI ライブラリは、物体検出と画像処理に関連するタスクを完了するためのさまざまなコンピューター ビジョン アルゴリズムとディープ ラーニング手法を開発者に提供するように設計されています。ImageAI ライブラリの主な目的は、物体検出プロジェクトを作成するための簡潔かつ効率的な方法を提供することです。

このトピックの詳細については、以下にリンクされている ImageAI ライブラリの公式ドキュメントを必ず参照してください。利用可能なコード ブロックのほとんどは、Python プログラミング言語と人気の深層学習フレームワーク Tensorflow を利用して記述されています。2021 年 6 月の時点で、このライブラリは画像処理タスクの計算に PyTorch バックエンドを使用しています。

概要

ImageAI ライブラリは、画像認識、画像オブジェクト検出、ビデオ オブジェクト検出、ビデオ検出分析、カスタム画像認識トレーニングと推論、カスタム オブジェクト検出トレーニングと推論など、オブジェクト検出関連の操作を多数サポートしています。画像認識機能は、特定の画像内で最大 1,000 個の異なるオブジェクトを識別できます。

画像およびビデオのオブジェクト検出タスクは、日常生活で最も一般的な 80 個のオブジェクトを検出するのに役立ちます。ビデオ検出分析は、ビデオ内またはリアルタイムで検出された特定のオブジェクトのタイムリーな分析を計算するのに役立ちます。このライブラリでは、カスタム イメージを導入して独自のサンプルをトレーニングすることもできます。更新された画像とデータセットを使用すると、より多くのオブジェクトをオブジェクト検出タスク用にトレーニングできます。

GitHub

https://github.com/OlafenwaMoses/ImageAI

2.グルーオンCV

導入

GluonCV は、さまざまなコンピューター ビジョン アプリケーション向けの深層学習アルゴリズムの最先端の実装を備えた最高のライブラリ フレームワークの 1 つです。このライブラリの主な目的は、この分野の愛好家が短期間で生産的な結果を達成できるようにすることです。これには、大規模なトレーニング データセット、実装テクニック、適切に設計された API などの優れた機能がいくつかあります。

概要

GluonCV ライブラリ フレームワークは、それを使用して実行できる多数のタスクをサポートしています。これらのプロジェクトには、画像分類タスク、画像、ビデオ、またはリアルタイムのオブジェクト検出タスク、セマンティック セグメンテーションとインスタンス セグメンテーション、特定の身体の姿勢を決定する姿勢推定、および実行されている人間の活動の種類を検出する動作認識が含まれます。これらの機能により、このライブラリは、より迅速な結果を得るのに最適な物体検出ライブラリの 1 つとなります。

このフレームワークは、前述のタスクを実行するために必要なすべての最先端のテクノロジーを提供します。MXNet と PyTorch をサポートしており、多数の概念の探索を開始できる広範なチュートリアルと追加のサポートが付属しています。これには、特定のタスクを実行するための特定の機械学習モデルを探索および作成できるトレーニング モデルの大規模なコレクションが含まれています。

仮想環境に MXNet または PyTorch をインストールしたら、このリンクに従って、このオブジェクト検出ライブラリの簡単なインストールを開始できます。ライブラリの特定の設定を選択できます。また、機械学習モデルを簡単にデプロイするための最適なプラットフォームである Model Zoo にもアクセスできます。これらすべての機能により、GluonCV は優れた物体検出ライブラリになります。

GitHub

https://github.com/dmlc/gluon-cv

3. ディテクトロン2

導入

Facebook の AI Research (FAIR) チームによって開発された Detectron2 フレームワークは、最先端の検出テクノロジ、オブジェクト検出方法、セグメンテーション アルゴリズムのほとんどをサポートする次世代ライブラリとみなされます。Detectron2 ライブラリは、PyTorch に基づくオブジェクト検出フレームワークです。このライブラリは柔軟性と拡張性に優れており、ユーザーにさまざまな高品質の実装アルゴリズムと手法を提供します。Facebook 上の多数のアプリケーションや制作プロジェクトもサポートしています。

概要

PyTorch に基づいて FaceBook によって開発された Detectron2 ライブラリは、優れたアプリケーション価値を持ち、単一または複数の GPU でトレーニングして、高速かつ効果的な結果を生成できます。このライブラリを利用すると、最適な結果を得るために複数の高品質の物体検出アルゴリズムを実装できます。ライブラリでサポートされている最先端の技術とオブジェクト検出アルゴリズムには、次のようなものがあります。

DensePose、パノラマ フィーチャ ピラミッド ネットワーク、およびマスク R-CNN モデル ファミリの他の多くのバリアント。

Detectron2 ライブラリを使用すると、ユーザーはカスタム モデルとデータセットを簡単にトレーニングすることもできます。次のインストールプロセスは非常に簡単です。必要な依存関係は、PyTorch と COCO API の 2 つだけです。次の要件が満たされると、Detectron2 モデルをインストールして、多数のモデルを簡単にトレーニングできます。次のライブラリの詳細と使用方法を学ぶには、次のガイドを使用できます。

GitHub

https://github.com/facebookresearch/detectron2

4.YOLOv3_TensorFlow

導入

YOLO v3 モデルは、2018 年にリリースされた YOLO シリーズの成功した実装の 1 つです。YOLO の 3 番目のバージョンは、以前のモデルを改良しています。以前のバージョンと比較して、YOLOv3 モデルは検出速度と精度の大幅な向上を実現しました。YOLOv3_TensorFlow ライブラリは TensorFlow に基づく YOLOv3 実装であり、開発者に使いやすいオブジェクト検出ツールを提供することを目的としています。

概要

YOLOv3_TensorFlow ライブラリは、画像やビデオに適したリアルタイムのオブジェクト検出タスクをサポートします。オブジェクト検出に直接使用できる事前トレーニング済みの重みファイルが提供されます。さらに、カスタム データセットを使用して、特定のアプリケーション シナリオに合わせてモデルを微調整することができます。

YOLOv3_TensorFlow ライブラリの主な機能は次のとおりです。

  • 高速リアルタイム物体検出
  • 複数のオブジェクト カテゴリをサポート
  • CPUとGPUで実行可能
  • カスタム データセット トレーニングのサポート

YOLOv3_TensorFlow ライブラリを使用するには、TensorFlow およびその他の関連依存関係をインストールする必要があります。これらの要件を満たした後、GitHub リポジトリのクローンを作成し、オブジェクト検出タスクに YOLOv3 の使用を開始できます。

GitHub

https://github.com/wizyoung/YOLOv3_TensorFlow

5.効率的です

導入

EfficientDet は、Google Brain チームによって開発された効率的な物体検出モデルです。これは EfficientNet モデルに基づいており、機能ピラミッド ネットワーク (FPN) と加重双方向機能ピラミッド ネットワーク (BiFPN) を組み合わせています。EfficientDet は速度と精度の点で優れたパフォーマンスを発揮し、注目に値する物体検出ライブラリです。

概要

EfficientDet ライブラリは、さまざまなコンピューティング機能やアプリケーション シナリオに適したさまざまな事前トレーニング済みモデルを提供します。リアルタイムの物体検出タスクをサポートし、CPU、GPU、および TPU で実行できます。EfficientDet を使用すると、ユーザーは特定のニーズに合わせてカスタム データセットを使用してトレーニングすることもできます。

EfficientDet ライブラリの主な機能は次のとおりです。

  • 効率的な物体検出パフォーマンス
  • 複数のオブジェクト カテゴリをサポート
  • CPU、GPU、TPU で実行可能
  • カスタム データセット トレーニングのサポート

EfficientDet ライブラリを使用するには、TensorFlow およびその他の関連依存関係をインストールする必要があります。これらの要件を満たした後、GitHub リポジトリのクローンを作成し、オブジェクト検出タスクに EfficientDet の使用を開始できます。

GitHub

https://github.com/google/automl/tree/master/efficientdet

結論は

物体検出は、現在でも最も重要な深層学習およびコンピューター ビジョン アプリケーションの 1 つです。物体検出方法には多くの改善と進歩が見られました。

これは、画像上で単純なオブジェクト検出をかなりの精度で実行するために 1986 年に導入された、勾配方向のヒストグラムなどのアルゴリズムから始まりました。現在では、Faster R-CNN、Mask R-CNN、YOLO、RetinaNet など、より最新のアーキテクチャが導入されています。

物体検出は画像に限定されず、ビデオやライブ映像に対しても高精度で効果的に実行できます。将来的には、さらに成功した物体検出アルゴリズムとライブラリも登場するでしょう。

おすすめ

転載: blog.csdn.net/shangyanaf/article/details/132988174