LLM大模型1_基础知识

首先,模型训练好后是原始版本,这个时候的模型是体积最大的,仅能通过transformers使用.当然,这个时候的模型也是相容性最好的,基本上只要能支持transformers的机器都能跑起来.而transformers算是AI界最通用的算法系统了.
其次,由於原始模型体积大速度慢等因素很多大老们发明了将其缩小但是不那么影响模型品质的方式,那就是量化,现在最常见的量化方式就是GPTQ和GGML.我们一般都是使用量化后的模型因為他们需要的VRAM或RAM能够降低很多.比如33B的模型没有量化大概需要50G~65G的VRAM或RAM,量化后24G就足够了.实际模型载入大概1XG,剩下的空间用来推理使用,已经完全足够.

模型类型与装载器:

原始模型	装载器	名称标示特点
原始模型	transformers	多个连续的数字编号档案构成，如001-of-008,002-of-008,003-of-008目录
GPTQ	AutoGPTQ
ExLlama
ExLlama_HF
GPTQ-for-LLaMa
GGML	llama.cpp	模型名称中包含GGML，只有一个文件扩展名为.bin

名称说明

7B,13B,33B,65B,170B	1B=10亿
fp16	fp16精度版,一般当作量化前的小体积原始版保存用
8K	8K上下文长度的模型
4bit	采用4bit量化的模型.一般為了节省VRAM或RAM
128g	量化中采用128g参数的模型.g=groupsize
gpt4	采用gpt4的校准数据,也就是经过gpt4调教，一般是针对某些方面强化的，就目前来说常见的是聊天强化
Chat	聊天强化
QLoRA	QLoRA微调的版本
LoRA	LoRA微调的版本
Uncensored	未經審查版(去除了思想鋼印)
NSFW	在未經審查版本的基礎上针对NSFW(工作場所不宜)內容強化的版本
OPT	OPT格式,這不是LLaMa系列的模型.是由KoboldAI自己開發的系列,最初是用來寫作方面的,他們的數據都是未經審查且NSFW強化的
SuperHOT	扩展上下文長度的版本
SuperCOT	LoRA加強模型逻辑，一般用來写作

资源占用

模型	原始尺寸所需RAM大小	量化后所需RAM大小（4bit）
7B	13GB	3.9GB
13B	24GB	7.8GB
30B	60GB	19.5GB
65B	120GB	38.5GB

LLM大模型1_基础知识

猜你喜欢