カンファレンスの紹介
Google Developer Conference は、Google が開発者やテクノロジー愛好家に最新の製品とプラットフォームを紹介する年次イベントです。2023 Google Developers Conference (Google I/O Connect | 中国) は、開発者に豊富な学習リソース、実践的な操作、オンサイトのデモンストレーションを提供し、Google の専門家と交流し、他の開発者とコミュニケーションをとる機会を提供して、開発効率の向上とリリースを支援します。創造性、作業プロセスの簡素化、オープンな統合ソリューションによる開発者へのサービス提供、イノベーション エコシステムの共同構築、そしてより良い未来の開拓。
MediaPipe を使用してオンデバイス機械学習を簡単に実装
メディア パイプとオンデバイス機械学習
Media Pipe は、クロスプラットフォームのデバイス側機械学習ソリューションを構築および展開するためのローコード/ノーコード フレームワークです。機械学習をモバイル、Web、IoT アプリケーションに統合できます。
オンデバイス機械学習は、ユーザー データを処理のためにサーバーに送信せずに、スマートフォンや Web ブラウザーなどのユーザーのデバイス上で実行される機械学習の一種です。
Media Pipe はジェスチャ認識の問題を解決します
画像を入力として受け取り、画像内で見つかったジェスチャ (親指を立てるなど) を返します。このタスクでは、実際には 4 つの異なる機械学習モデルを接続する必要があります。
- ①画像から手を確認する
- ②手のツボを検出
- ③ジェスチャの埋め込みベクトルを作成する
- ④この埋め込みを「いいね」として分類します
さらに、他にも多くのことを達成できます。たとえば、プロセス全体を GPU で効率的に実行する方法や、さまざまなプラットフォームに慣れていない場合などです。
ただし、MediaPipe はこれらの複雑なタスクを抽象化し、モデルを接続するためのパイプラインを提供するため、これらすべてのモデルの調整について心配する必要はなく、単純な API 対話のみが必要です。
MediaPipe は現在どのようなプラットフォームをサポートしていますか?
現在、Android、Web、Python をサポートしていますが、IOS のサポートも間もなく開始される予定です。
メディアパイプスタジオ
MediaPipe Studio は、MediaPipe のデバイス側機械学習ソリューションのすべてをブラウザーで直接試すことができる Web アプリケーションです。ジェスチャ認識については、両手ジェスチャのサポートが追加されており、間もなく開始される予定です。MediaPipe Studio は、ジェスチャ認識に加えて、画像セグメンテーション、顔認識、テキスト、オーディオ、ビデオ ソリューションなど、他の機械学習関連のソリューションも提供します。
独自のユースケースに合わせてソリューションをカスタマイズする
この問題は、MediaPipe が提供するソリューションをカスタマイズするためのネイティブ ライブラリとしてゼロから構築された MediaPipe Model Maker を使用して解決できます。
ジェスチャ認識問題を解決する例として、手順は次のとおりです。
- 手を使ってじゃんけんとじゃんけんの 3 つのジェスチャーを行うトレーニング データ セットを収集します。
- データセットを取得したら、モデル メーカーを使用して、これらのジェスチャを認識するカスタム モデルのトレーニングを開始できます。
- Google Colab の無料 GPU を使用してモデルをより高速にトレーニングする
- まず、ジェスチャ認識モジュールをインポートする必要があります
- 次に、ジャンケン データセットを読み込み、カスタム モデルのトレーニングを開始します。
- モデルの精度は、モデルがトレーニング中に確認していないテスト データ セットを使用してチェックできます。
- 最後に、MediaPipe タスクを使用してデバイスに展開するためにエクスポートできます。
MediaPipe Studio を使用すると、これらのソリューションを Web ブラウザーで試して、
オンデバイスの機械学習をアプリケーションに統合するためのインスピレーションを得ることができます。また、その多くは独自のデータ セットを使用してカスタマイズできます。
AIモデル分野の発展
- 1 つは、モデル蒸留と呼ばれる手法が発見されたことです。この手法を使用すると、これらの一般的な大きなモデルを、デバイス上で実行でき、特定の数のタスクの処理に特化した小さなモデルに精製でき、その後、顔の予測に使用できます。スタイル化のための実験的なオンデバイス ソリューションで、これを使用して、たとえば写真を漫画スタイルに変換できます。
- 2 つ目はテスト中の別の生成 Al モデルです, これは拡散ベースの画像生成モデルです. MediaPipe は、モバイルまたは Web アプリケーションに簡単に統合できる既製のデバイス側機械学習ソリューションを提供します。秒単位のプロンプトが Android スマートフォンに実装されました。
- 3 つ目は、デバイス側の生成 AI はまだ初期段階にありますが、大規模な言語モデルを Android にデプロイして、長い会話を要約したり、特定のトピックに基づいて正式な電子メールを作成したりするなど、自然言語でいくつかのタスクを完了できるようにできることです。段階的ですが、近い将来どんどん良くなるでしょう。
まとめ
2023 Google Developer Conference では、多くのテクノロジーが紹介されました。Media Pipe は、機械学習の複雑な作業を抽象化し、モデルを相互に接続するのに役立つパイプラインを提供します。開発者は、この製品スイートを使用して、デバイス側のマシンを簡単に接続できます。学習ソリューションはアプリケーションに統合されますさまざまなプラットフォーム (Android、Web、デスクトップなど) で同時に、AI モデルを最初は Android にデプロイでき、日常生活に役立つ AI モデルがますます増えています。また、独自のトレーニング データ セットを使用して、わずか数行のコードで一部のソリューションを簡単にカスタマイズできるため、将来的には「ゼロ コード」を達成できる可能性があります。
MediaPipe 、機械学習、その他の開発ツールに興味のある友人は、 CSDN特別ページにアクセスして、2023 Google Developer Conference の基調講演と特別講演のリプレイ ビデオを視聴し、新しい技術知識や最先端の技術についてさらに学ぶことができます。ケース。CSDN