ローカル開発用のオープンソース LLM モデルのセットアップ

ChatGPT は依然として人気がありますが、漏洩した Google 内部文書は、オープンソース コミュニティが追いつき、大きな進歩を遂げていることを示唆しています。大規模な LLM モデルをコンシューマ GPU で実行できるようになりました。

したがって、これらの LLM をローカル環境で試して、それを使用してアプリケーションを構築したいと考えている開発者のために、この記事では役立ついくつかのオプションについて説明します。

最初のオプション:

https://github.com/oobabooga/text-generation-webui?source=post_page-----dcbf80c8d818--------------------------------

Gradio Web UI を使用して、利用可能なほぼすべての LL.M を実行できます。GGML や GPTQ などのさまざまな形式の LLM をサポートしています。

2 番目のオプション:

https://github.com/ggerganov/llama.cpp?source=post_page-----dcbf80c8d818--------------------------------

AC/C++ ベースのライブラリは、CPU 上でのみ LLM 推論を実行することに焦点を当てていましたが、最近 GPU アクセラレーションのサポートが追加されました。これはスタンドアロン ライブラリとして設計されているため、これと統合するアプリケーションを構築する場合は、独自のバインディングを構築するか、コミュニティ バインディング ライブラリを使用する必要がある場合があります。

注: llama-cpp-python の場合、Apple Silicon (M1) Mac を使用している場合は、arm64 アーキテクチャをサポートするバージョンの Python がインストールされていることを確認してください。それ以外の場合、インストールでは llama.ccp の x86 バージョンがビルドされます。これは、Apple Silicon (M1) Mac では 10 倍遅くなります。

3 番目のオプション:

8 GB を超える VRAM を備えた適切な GPU がある場合は、GPTQ-for-LLaMa などの GPU に GPTQ 量子化を使用することを選択できます。

ただし、GPTQ-for-LLaMa では、CLI のような例と限られたドキュメントのみが提供されます。したがって、GPTQ-for-LLaMa 実装を使用し、生成されたテキストを HTTP API 経由で提供するサンプル リポジトリを作成しました。

https://github.com/mzbac/GPTQ-for-LLaMa-API?source=post_page-----dcbf80c8d818--------------------------------

つまり、Gradio Web UI、llama.cpp、GPTQ-for-LLaMa のいずれであっても、各オプションはローカルで LLM を実行するためのさまざまなハードウェア機能を満たしています。ハードウェア リソースに基づいて選択してください。LL.M. のエキサイティングな世界に飛び込んで、楽しくコーディングしましょう!

おすすめ

転載: blog.csdn.net/iCloudEnd/article/details/133479317