设置开源LLM模型用于本地开发

尽管 ChatGPT 仍然很受欢迎,但泄露的 Google 内部文件表明开源社区正在迎头赶上并取得重大突破。我们现在能够在消费级 GPU 上运行大型 LLM 模型。

因此,如果您是一名开发人员,想要在本地环境中尝试这些 LLM 并用它构建一些应用程序,那么在本文中我将演练一些可以帮助您的选项。

第一个选项:

https://github.com/oobabooga/text-generation-webui?source=post_page-----dcbf80c8d818--------------------------------

Gradio Web UI 可用于运行几乎所有可用的法学硕士。它支持不同格式的LLM,例如GGML或GPTQ。

第二个选项:

https://github.com/ggerganov/llama.cpp?source=post_page-----dcbf80c8d818--------------------------------

基于 AC/C++ 的库,专注于仅在 CPU 上运行 LLM 推理,但最近还添加了对 GPU 加速的支持。它被设计为一个独立的库,因此如果您想构建一个与其集成的应用程序,您可能必须构建自己的绑定或使用社区绑定库:

注意:对于 llama-cpp-python,如果您使用的是 Apple Silicon (M1) Mac,请确保您已安装支持 arm64 架构的 Python 版本。否则,安装时将构建 llama.ccp x86 版本,该版本在 Apple Silicon (M1) Mac 上速度会慢 10 倍。

第三种选择:

如果您有一个不错的 GPU,VRAM 大于 8GB,您可以选择对 GPU 使用 GPTQ 量化,例如GPTQ-for-LLaMa。

然而,GPTQ-for-LLaMa 仅提供了类似 CLI 的示例和有限的文档。因此,我创建了一个示例存储库,它使用 GPTQ-for-LLaMa 实现并通过 HTTP API 提供生成的文本。

https://github.com/mzbac/GPTQ-for-LLaMa-API?source=post_page-----dcbf80c8d818--------------------------------

总之,无论是 Gradio Web UI、llama.cpp 还是 GPTQ-for-LLaMa,每个选项都满足本地运行 LLM 的不同硬件功能。根据您的硬件资源进行选择。潜入法学硕士的激动人心的世界,祝你编码愉快!

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/133479317