llama2本地CPU推理运行

介绍

本教程使用C语言部署运行llama2模型,可以高效地在CPU上进行推理。主要包含的内容有:
1 运行环境配置,包括C、python
2 原始llama2模型转换为二进制格式
3 使用C语言推理llama2

环境安装与配置

项目下载:
git clone https://github.com/karpathy/llama2.c.git
操作系统:ubuntu (Windows下我尝试过,编译会报错)
软件环境:
gcc make (已经有的就不用安装了)
python (我使用了3.9,其他版本预计都是可以的)
gcc安装:apt install build-essential
make安装:apt-get install make
python安装好之后安装一下依赖包,pip install -r requirements.txt

python主要作用就是将原始llama2模型转换为.bin二进制格式

github项目介绍

使用此仓库中的代码,您可以在PyTorch中从头开始训练Llama 2 LLM架构,然后将权重导出到二进制文件,并将其加载到一个简单的500行C文件(run.c)中,该文件进行模型推断。或者,您可以加载、微调和推断Meta的Llama 2(但这仍在积极完善中)。因此,该存储库是Llama 2 LLM的“全栈”训练+推断解决方案,强调极简和简单性。您可能认为您需要拥有许多十亿参数的LLM才能执行任何有

猜你喜欢

转载自blog.csdn.net/artistkeepmonkey/article/details/132176369
今日推荐