【AI实战】llama.cpp 量化部署 llama-33B

llama.cpp 量化介绍

量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的,花销更小,运行更快的模型。

Inference of LLaMA model in pure C/C++。

llama.cpp 运行期占用内存更小,推断速度也更快,同样的模型,7

猜你喜欢

转载自blog.csdn.net/zengNLP/article/details/131572486