機械学習を使用して、人体の 33 の 2D ポーズを検出して評価します

前回の記事で顔468点検出とハンドブラックジャックのコード実装プロセスを紹介しましたが、今回は人体姿勢の検出と評価を行います。

ビデオからの人間の姿勢の推定は、身体運動の定量化、手話認識、全身のジェスチャー制御など、さまざまなアプリケーションで重要な役割を果たし、デジタル コンテンツと情報を物理世界の上に拡張現実で重ね合わせます。

MediaPipe Pose は、忠実度の高い人間のポーズ トラッキング用の ML ソリューションであり、BlazePose の研究を活用し、ML Kit Pose Detection API から RGB ビデオ フレームの 33 個の 2D ランドマーク (または 25 個の上半身ランドマーク) 全体を取得します。現在の最先端の方法は、主に推論のために強力なデスクトップ環境に依存していますが、MediaPipe Pose のアプローチは、ほとんどの最新の携帯電話、さらには Web でもリアルタイム パフォーマンスを実現します。

 ML パイプライン

このソリューションでは、2 ステップの検出器 - トラッカー ML パイプラインを利用します。パイプラインは、最初に検出器を使用してフレーム内の人物/ポーズの関心領域 (ROI) を特定します。次にトラッカーは、ROI のトリミングされたフレームを入力として使用して、ROI 内のポーズ ランドマークを予測します。ビデオの使用例では、検出器は必要な場合 (つまり、最初のフレーム) と、トラッカーが前のフレームで人間のポーズを認識できなくなった場合にのみ呼び出されることに注意してください。他のフレームの場合、パイプラインは前のフレームのポーズ ランドマークからのみ ROI を導出します。

人物・姿勢検出モデル(BlazePose検出器)

この検出器は、検出器のプロキシとして使用される軽量モデルに着想を得ています。人体の中心、回転、およびスケールを円としてしっかりと記述する 2 つの追加の仮想キーポイントを明示的に予測します。、人の腰の中点、人全体に外接する円の半径、および接続する肩を予測します

おすすめ

転載: blog.csdn.net/weixin_44782294/article/details/129906591