Google Developer Conference 2023: 大規模な言語モデルを携帯電話にデプロイする

2022 年末、半年も経たないうちに主要な言語モデルの開発が急増し、2023 年 9 月現在、世界中に主要な言語モデルが 100 近くあり、百花が咲いていると言えるでしょう。主要な言語モデルがその優れた AI 対話機能に依存していることは明らかであり、
ここに画像の説明を挿入します
徐々にさまざまな業界に浸透しています

2023年のGoogle Developers ConferenceではAIが話題になり、Google技術推進エンジニアのウェイウェイ氏が「大規模な言語モデルを個人端末に展開する」ことを提案したが、素人目には携帯電話の機能が一つ増えただけとしか思えないかもしれないが、開発者によると、これは牛を冷蔵庫に入れるのと同じです。

ここでの課題はおそらく次のとおりです。

  1. モデルの圧縮と最適化: 大規模な言語モデルには通常、膨大なパラメータ量と計算要件があり、携帯電話で直接実行することはできません。したがって、モデルのサイズと計算の複雑さを軽減するために、最初にモデルを圧縮して最適化する必要があります。これには、枝刈り、量子化、低ランク分解、その他のモデル固有の最適化手法などの手法が含まれる場合があります。
  2. モバイル推論エンジン: 携帯電話上で大規模な言語モデルを実行するには、効率的なモバイル推論エンジンが必要です。これらのエンジンは通常、モバイル デバイスのハードウェアとリソースに合わせて最適化されており、高速かつ効率的なモデル推論機能を提供できます。人気のあるモバイル推論エンジンには、TensorFlow Lite、Core ML、NCNN などがあります。
  3. モデルの定量化: モバイル デバイスのコンピューティング リソースは限られているため、携帯電話でのモデルのパフォーマンスと効率を向上させるために、モデルを定量化することもできます。モデルの量子化とは、モデルの重みとアクティベーションを 8 ビット整数や浮動小数点数などの低精度表現に変換することを指します。これにより、比較的高い精度を維持しながら、モデルのメモリ使用量と計算要件が削減されます。
  4. ハードウェア アクセラレーション: 一部の新世代モバイル デバイスには、より高いコンピューティング パフォーマンスと効率を提供できる特殊なニューラル ネットワーク プロセッシング ユニット (NPU) またはグラフィックス プロセッシング ユニット (GPU) が搭載されています。これらのハードウェア アクセラレータを使用すると、携帯電話上の大規模な言語モデルの推論速度をさらに高速化できます。
  5. オフライン展開とクラウドのサポート: 大規模な言語モデルを携帯電話でオフラインで実行するには、圧縮され最適化されたモデルを携帯電話に展開する必要があります。同時に、クラウドテクノロジーと組み合わせてクラウドサーバーと通信して、必要に応じてモデルのアップデートやサポートを取得することもできます。

もちろん、Google の技術推進エンジニアも会議でこの点について言及しました。
「大規模な言語モデルは非常に大きなストレージ領域を占有し、機械学習 (ODML) を端末デバイスに展開するのは非常に困難ですが、小規模なモデルを実行することは可能です」
ここに画像の説明を挿入します
このカンファレンスの中核コンテンツとして、Google は、さまざまなテキストベースのタスクを処理できる深層学習に基づく自然言語処理システムである第 2 世代の大規模言語モデル PaLM 2 (Pathway Language Model) もリリースしました推論、エンコード、翻訳、生成など。PaLM 2 は非常に強力なロジックと推論機能を備えており、100 以上の言語をサポートしており、さまざまなシナリオや分野で使用できます。

会議では、Google Cloud の主要なアップデートについても言及され、Google は AI をクラウド プラットフォームに深く統合し、海外の企業や開発者が AI を容易に活用してイノベーションを推進、実現できるよう支援しています。

ここに画像の説明を挿入します

AI は Google Cloud の機能の中核です。AI プロダクトとモデルは、Google Cloud の最初の主要な AI 開発分野であり、海外の企業や開発者が生成 AI 業界アプリケーションを簡単に構築してデプロイし、エンタープライズ レベルのセキュリティとプライバシーを確​​保できるように支援します。Google Cloud を使用すると、企業は AI を活用して根本的なイノベーションを推進し、達成することが容易になります。


Google は、テキスト チャットから画像、コード、音声、埋め込みに至るまで、複数のシナリオに対応する大規模な言語モデルを開始しました。
ここに画像の説明を挿入します

● テキスト モデル
新しいバージョンのテキスト モデルでは、モデルの入力長制限が 8,000 トークンから 32,000 トークンに増加しました。これにより、開発者は学術論文、法律文書、書籍などの長い文書を簡単に処理できるようになります。PaLM 2 は現在、中国語、日本語、ドイツ語、スペイン語などを含む 38 の言語を正式にサポートしています。さらに 100 の言語がクローズド プレビュー中です。
ここに画像の説明を挿入します
● テキストからコードへのモデル Codey の新しいバージョンでは
、サポートされているメインストリーム言語に関して、コード生成とコード チャットの品質が 25% 近く向上しました。

● 画像モデル Imagen は
、画像生成・編集・アノテーション・ビジュアル質疑応答機能をベースに「スタイル調整」機能を追加し、開発者は 10 枚程度の参考画像を提供するだけで、ブランド特性などに合った画像を生成することができます。クリエイティブなニーズに応える写真。

上記のコンテンツについては、CSDNの特集ページで関連トピックのリプレイ動画をご覧いただけますので、AI開発分野だけでなく、モバイル開発、Web開発、クラウド開発の分野でも刺激的なコンテンツをご用意してお待ちしております。探検する。
https://marketing.csdn.net/p/8b1b4b3f5f0fe4c3cdf1c2d5e42a05c3

おすすめ

転載: blog.csdn.net/qq_33709582/article/details/132988229