LLM大模型1_基础知识

首先,模型训练好后是原始版本,这个时候的模型是体积最大的,仅能通过transformers使用.当然,这个时候的模型也是相容性最好的,基本上只要能支持transformers的机器都能跑起来.而transformers算是AI界最通用的算法系统了.
其次,由於原始模型体积大速度慢等因素很多大老们发明了将其缩小但是不那么影响模型品质的方式,那就是量化,现在最常见的量化方式就是GPTQ和GGML.我们一般都是使用量化后的模型因為他们需要的VRAM或RAM能够降低很多.比如33B的模型没有量化大概需要50G~65G的VRAM或RAM,量化后24G就足够了.实际模型载入大概1XG,剩下的空间用来推理使用,已经完全足够.

  • 模型类型与装载器:

    原始模型 装载器 名称标示特点
    原始模型 transformers 多个连续的数字编号档案构成,如001-of-008,002-of-008,003-of-008目录
    GPTQ AutoGPTQ
    ExLlama
    ExLlama_HF
    GPTQ-for-LLaMa
    GGML llama.cpp 模型名称中包含GGML,只有一个文件扩展名为.bin
  • 名称说明

    7B,13B,33B,65B,170B 1B=10亿
    fp16 fp16精度版,一般当作量化前的小体积原始版保存用
    8K 8K上下文长度的模型
    4bit 采用4bit量化的模型.一般為了节省VRAM或RAM
    128g 量化中采用128g参数的模型.g=groupsize
    gpt4 采用gpt4的校准数据,也就是经过gpt4调教,一般是针对某些方面强化的,就目前来说常见的是聊天强化
    Chat 聊天强化
    QLoRA QLoRA微调的版本
    LoRA LoRA微调的版本
    Uncensored 未經審查版(去除了思想鋼印)
    NSFW 在未經審查版本的基礎上针对NSFW(工作場所不宜)內容強化的版本
    OPT OPT格式,這不是LLaMa系列的模型.是由KoboldAI自己開發的系列,最初是用來寫作方面的,他們的數據都是未經審查且NSFW強化的
    SuperHOT 扩展上下文長度的版本
    SuperCOT LoRA加強模型逻辑,一般用來写作
  • 资源占用

    模型 原始尺寸所需RAM大小 量化后所需RAM大小(4bit)
    7B 13GB 3.9GB
    13B 24GB 7.8GB
    30B 60GB 19.5GB
    65B 120GB 38.5GB

猜你喜欢

转载自blog.csdn.net/weixin_42452716/article/details/132173959