大規模言語モデルのためのオープンソース AI インフラストラクチャの探求: 北京オープンソース AI Meetup のレビュー

翻訳参见大
規模言語モデルのためのオープンソース AI インフラを探索する: オープンソース AI ミートアップ北京のハイライト | クラウド ネイティブ コンピューティング基盤

 

背景の紹介:

最近、ChatGPT の成功によって大規模言語モデルとそのア​​プリケーションの人気が高まり、これらのモデルの背後にある技術の内部動作に対する大きな関心が高まっています。大規模な言語モデルと関連アプリケーションの背後にあるインフラストラクチャを詳しく調査するために、WasmEdge はCloud Native Computing Foundation (CNCF) の支援を受けて 7 月 8 日に北京で開発者ミートアップを開催しました。このイベントには、AI クラウド ネイティブ オープンソース コミュニティのさまざまな分野の専門家や開発者が集まり、大規模言語モデル開発のライフ サイクルにおけるさまざまなテクノロジについて議論および分析しました。

次のトピックについて話し合いました

Michael Yuan - Rust と Wasm を使用した軽量 AI アプリケーションの構築
 

CNCF WasmEdge ランタイムの創設者である Michael Yuan は、WebAssembly (Wasm) コンテナ インフラストラクチャを活用して大規模言語モデル (LLM) プラグインを構築することを検討しています。

彼は、現在の大規模言語モデルの関数とプラグインのいくつかの重要な問題について概説しました。

  • LLM ロックインにより、ユーザーは単一のプロバイダー エコシステムに留まることになります。これにより、柔軟性が制限されます。
  • モデル ワークフローのロックインとは、トークナイザーや推論エンジンなどのコンポーネントを簡単に置き換えることができないことを意味します。すべては全体的な枠組みの中に収まらなければなりません。
  • UI ロックダウンでは、UI/UX がベンダーが提供するものに制限され、カスタマイズの余地が少なくなります。
  • マシン入力のサポートの欠如 - 今日の大規模な言語モデルは、人間の入力による対話モデル用に構築されています。これらは、構造化された機械生成データではうまく機能しません。
  • 大規模な言語モデルでは、会話を開始したり、一方的に情報を提供したりすることはできません。ユーザーはすべてのインタラクションを主導する必要があります。

既存のオープンソース フレームワークにも次のような課題があります。

  • 基本的なアプリケーションであっても、開発者はインフラストラクチャを構築して管理する必要があります。サーバーレスモードは選択できません。
  • すべてが Python に依存しているため、Rust などのコンパイル言語と比較して推論が遅くなります。
  • 開発者は、カスタム認証と外部サービス (データベースなど) へのコネクタを作成する必要があります。このオーバーヘッドにより開発が遅くなります。

これらの制限を克服するには、WebAssembly およびサーバーレス関数は、軽量 LLM アプリケーションを構築するための優れた方法です。Wasm は、迅速に起動し、Rust を含む複数の言語をサポートし、計算負荷の高い推論に最適なポータブル ランタイムを提供します。

WasmEdge は、開発者が研究開発管理、DevRel、マーケティング オートメーション、トレーニング/学習でサーバーレス Rust 機能を WasmEdge で実行できるプラットフォーム flows.network を構築し、大規模な言語モデルに記憶、耳、手、およびアクション機能を提供しますuse サーバーレス方式で大規模なモデル アプリケーションを数分で実装します。これにより、開発時間を数か月から数分に短縮できます。新世代のカスタマイズ可能な垂直型大規模言語モデル アプリケーションを実現できます。

このスピーチを通じて、聴衆は、  flows.networkを使用して  、サーバーレス方式で AI アプリケーションを 3 分以内に構築する方法を学びました。

Fangchi Wang - FATE-LLM: Federated Learning と大規模言語モデルの出会い


 

VMware CTO Office のシニア エンジニアであり、FATE プロジェクトのメンテナーでもある Wang Fangchi 氏は、フェデレーテッド ラーニングと大規模言語モデル テクノロジを組み合わせた先進的なソリューションである FATE-LLM を紹介しました。FATE-LLM を使用すると、複数の参加者がプライベート データを使用して大規模なモデルを共同で微調整できるため、ローカル ドメイン外でデータを共有することなくデータのプライバシーを確​​保できます。プレゼンテーションでは、ChatGLM や LLaMA などの大規模言語モデルにフェデレーション ラーニングを適用した最新の結果が取り上げられ、技術的な課題、設計コンセプト、将来の計画について議論されました。

フェデレーテッド ラーニングは、大規模な言語モデルのデータ プライバシー問題に対処するための有望なアプローチです。フェデレーテッド ラーニングは、大規模な言語モデルの次の課題を克服するのに役立ちます。

  • パブリックデータが枯渇しているか不十分な場合にプライベートデータを使用する
  • LLM の構築および使用中にプライバシーを維持する

FATE-LLM (FATE Federated Large Language Model) を使用すると、参加者は元のデータを転送せずに、自分のプライベート データを使用して共有モデルを微調整できます。これにより、より多くの組織が大規模な言語モデルから恩恵を受けることができるようになります。

  • 複数のクライアントは、FATE の組み込みの事前トレーニング済みモデルを通じて水平連合学習をサポートし、大規模なモデルの微調整にプライベート データを使用できます。
  • 30 人以上の参加者による共同トレーニングをサポート

 Li Chen - Vector Database: 大規模モデルの長期記憶


 

Milvus の運用およびエコシステム開発責任者である Li Chen 氏は、カスタムの大規模言語モデルを構築する組織にとってベクトル データベースの重要性を強調しました。Milvus は、クラウドネイティブ環境向けに設計されたオープンソースのベクトル データベースです。Kubernetes (K8s) ベースのマイクロサービス アーキテクチャを採用し、分散型クラウドネイティブ運用を実現します。Milvus はストレージとコンピューティングを分離して柔軟なスケーラビリティを提供し、ワークロード要件に応じたシームレスな拡張と縮小を可能にします。その高可用性により、障害からの迅速な回復 (通常は数分以内) が保証されます。

Milvus の注目すべき機能の 1 つは、数十億のベクトルを処理できることであり、そのスケーラビリティと大規模アプリケーションへの適用可能性を示しています。Milvus はメッセージ キューを使用してリアルタイムのデータの挿入と削除を実装し、効率的なデータ管理を保証します。

Milvus は、OpenAl、Langchain、Huggingface、PyTorch などの現在人気のある AI エコシステムと統合されており、人気のあるフレームワークやライブラリとのシームレスな互換性を提供します。さらに、GUI、CLI、監視およびバックアップ機能などの環境に優しいツールの包括的なセットも提供し、ユーザーに Milvus の展開を管理および最適化するための強力なツールキットを提供します。

要約すると、Milvus は、スケーラビリティ、耐障害性、およびさまざまな AI エコシステムとの統合に優れた、分散型のクラウドネイティブなベクトル データベース ソリューションを提供します。Milvus は、そのマイクロサービス設計と拡張的なツールのエコシステムを組み合わせることで、大規模な AI アプリケーションを管理するための強力なツールとなっています。

Zhang Zhi——開発におけるモデルの定量化に関連する技術的実践


SenseTime モデル量子化フレームワーク エンジニアの Zhang Zhi 氏が、広く使用されているニューラル ネットワーク量子化テクノロジについて詳しく説明しました。このプレゼンテーションでは、重みのみの量子化やグループ化された KV キャッシュ量子化など、大規模な言語モデルで使用されるさまざまな量子化手法に焦点を当てます。これらの手法のアプリケーション シナリオとパフォーマンス上の利点について説明し、サーバー上でのモデルの展開、パフォーマンスの最適化、ストレージと計算コストの削減に関する洞察が提供されます。

モデルの量子化と圧縮は、大規模な言語モデルを展開する場合、特にエッジ デバイスなどのリソースに制約のあるデバイスに展開する場合に重要です。OpenPPL チームが開発した PPQ などのツールは、ニューラル ネットワークを量子化してサイズと計算コストを削減し、より幅広いハードウェアで実行できるようにします。この講演は内容が充実しており、大規模モデルの定量化に関する多くの実践的な技術的詳細について話されており、Zhang 先生のビデオはステーション B で公開され、温かい賞賛と歓迎を受けました。

ティーブレイクにはピザとフルーツが提供されます。

要約する


このミートアップは、クラウド ネイティブおよび AI テクノロジーに情熱を注ぐ参加者にとってエキサイティングなイベントでした。講演者は大規模言語モデルに焦点を当て、軽量 AI アプリケーション開発、大規模モデルのフェデレーション ラーニング、ベクトル データベース、モデルの量子化、LLM 評価など、大規模モデルのためのさまざまなオープンソース プロジェクトについて深く議論しました。カンファレンスに参加する開発者は、これらのテクノロジーの複雑な詳細について貴重な洞察を得ることができ、誰もがオープンソースのクラウドネイティブと人工知能のプロジェクトとアプリケーションの間の相乗効果を活用できるようになります。

全体として、ミートアップでは、組織が大規模な言語モデルを構築および適用するのにオープンソース テクノロジーがどのように役立つかを強調しました。知識を共有し、協力することで、AI とクラウドネイティブのコミュニティは協力して、次世代 AI システムの進歩と製品化に伴う課題に対処できます。

おすすめ

転載: blog.csdn.net/weixin_42376823/article/details/131956464