LLM大模型训练和预测如何计算算力需求?

架构+数据+算力

  1. 8*A100 微调大模型 lora工具微调
  2. 内容审核:输入的审核 生成的审核;
  3. GPU并行处理能力

算力计算

一个LLaMA-6B的数据类型为Int8
模型参数 6B1bytes = 6GB
梯度 6B
1bytes = 6GB
优化器参数 Adam 2倍模型参数:6GB*2 = 12GB
训练共24GB的显存

推理算力

模型参数 6B*1bytes = 6GB
推理共6GB的显存

Transformer

1, 多头注意力
2. Transformer可以取代CNN,也就是使用Transformer可以做视觉

猜你喜欢

转载自blog.csdn.net/weixin_32393347/article/details/132884788
今日推荐