Llama-2 推理和微调的硬件要求总结：RTX 3080 就可以微调最小模型 - 代码天地

Llama-2 推理和微调的硬件要求总结：RTX 3080 就可以微调最小模型

企业开发 2023-09-13 19:11:36 阅读次数: 0

大语言模型微调是指对已经预训练的大型语言模型（例如Llama-2，Falcon等）进行额外的训练，以使其适应特定任务或领域的需求。微调通常需要大量的计算资源，但是通过量化和Lora等方法，我们也可以在消费级的GPU上来微调测试，但是消费级GPU也无法承载比较大的模型，经过我的测试，7B的模型可以在3080（8G）上跑起来，这对于我们进行简单的研究是非常有帮助的，但是如果需要更深入的研究，还是需要专业的硬件。

我们先看看硬件配置：

亚马逊的g3.xlarge M60是8GB的VRAM和2048个CUDA内核。3080是10Gb的GDDR6 VRAM，这两个GPU基本类似。

这里做的测试是使用一个小的(65MB文本)自定义数据集上微调lama-2 - 7b (~7GB)。

可以看到3080非常耗电，训练时最大耗电364瓦(PC总耗电超过500瓦)。

看看训练的记录

说明训练是ok的，能够完整的进行训练

为了验证内存消耗，我又在8G 的M60上跑了一遍，也是没问题的，这应该是GPU内存的极限了。

占用的差不多7.1G的内存，再多一些可能就不行了，不过还好，将就够用。

最后我们再整理个列表，大概看看各个模型都需要什么样的内存，以下只是推理，不包括微调，如果使用微调，大概需要再加20%（LORA）。

LLaMA-7B

建议使用至少6GB VRAM的GPU。适合此模型的GPU示例是RTX 3060，它提供8GB VRAM版本。

LLaMA-13B

建议使用至少10GB VRAM的GPU。满足此要求的gpu包括AMD 6900 XT、RTX 2060 12GB、3060 12GB、3080和A2000。这些gpu提供了必要的VRAM容量来有效地处理LLaMA-13B的计算需求。

LLaMA-30B

建议使用VRAM不低于20GB的GPU。RTX 3080 20GB、A4500、A5000、3090、4090、6000或Tesla V100都是提供所需VRAM容量的gpu示例。这些gpu为LLaMA-30B提供了高效的处理和内存管理。

LLaMA-65B

LLaMA-65B在与至少具有40GB VRAM的GPU。适合此型号的gpu示例包括A100 40GB, 2x3090, 2x4090, A40, RTX A6000或8000。

对于速度来说：

我是用RTX 4090和Intel i9-12900K CPU的推理速度示例

对于CPU来说，LLaMA也是可以用的，但是速度会很慢，而且最好不要进行训练，只能进行推理，下面是，13B模型在不同CPU上推理速度列表

各个系统的配置和性能可能会有所不同。最好对不同的设置进行实验和基准测试，以找到最适合您特定需求的解决方案，上面的测试仅供参考。

https://avoid.overfit.cn/post/0dd29b9a89514a988ae54694dccc9fa6

猜你喜欢

转载自blog.csdn.net/m0_46510245/article/details/132846400

Llama-2 推理和微调的硬件要求总结：RTX 3080 就可以微调最小模型

大语言模型之十五-预训练和监督微调中文LLama-2

基于LLaMA-2进行微调的FreeWilly2开源语言模型

大语言模型之七- Llama-2单GPU微调SFT

微调 Llama-2 7B 模型以生成 Python 代码有关如何使用 PEFT、QLoRa 和 Huggingface 实用程序微调新 Llama-2 的演示

LLM微调（二）| 微调LLAMA-2和其他开源LLM的两种简单方法

Llama-2大模型本地部署研究与应用测试

大语言模型之四-LlaMA-2从模型到应用

以Llama-2为例，在生成模型中使用自定义StoppingCriteria

以Llama-2为例，在生成模型中使用自定义LogitsProcessor

只用1块A100，就能训练自己的Llama-2模型

NLP（六十四）使用FastChat计算LLaMA-2模型的token长度

使用 DPO 微调 Llama 2

【类ChatGPT】中文LLaMA-2、Alpaca-2 二代羊驼大模型体验

RTX3080 参数配置

将 Llama 2 的延迟和吞吐量性能提高多达 4 倍 Llama-2 13B 的真实世界基准

训练自己的Llama 2！大模型微调技术介绍

使用DPO微调Llama2

LLaMA的解读与其微调：Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙/LLaMA 2

ubuntu18.04配置detectron2（RTX3080Ti）

基于peft 微调 LLaMa模型

RTX 3080和RTX 2080 Ti哪个好

RTX3080和RTX2080TI 哪个好

RTX3080在Ubuntu 20.04复现yolact

基于中文金融知识的 LLaMA 系微调模型的智能问答系统：LLaMA大模型训练微调推理等详细教学

RX 6800 XT和RTX3080哪个好

RTX 3080 Linux和Windows 平台兼容性问题

RX6900XT和RTX3080哪个好

全面对比GPT-3.5与LLaMA 2微调

使用QLoRA对Llama 2进行微调的详细笔记

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)