大模型都有哪些？

大模型一般可以分为通用大模型和垂直领域大模型。

通用大模型很好理解，就是使用大量通用数据进行预训练的大模型，通常会具备两种特点：跨任务的通用性和跨域的通用性。

而垂直领域大模型有很多别名，如领域大模型，行业大模型，垂直大模型，说的都是一个意思。垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型。与通用大模型相比，垂直领域大模型更专注于某个特定领域的知识和技能，具备更高的领域专业性和实用性。

垂直领域大模型的优劣势

与通用大模型相比，垂直领域大模型具有以下优势和劣势：

优势：

劣势：

垂直领域大模型有以下几种形式：

基于垂直领域数据对通用大模型的微调，也使用垂直领域数据通过某些微调方式（如LoRA、P-Tuning等）对通用大模型进行微调；当然，也有基于垂直领域数据在通用大模型的基础上进行继续预训练；
只使用垂直领域数据预训练大模型；
使用垂直领域数据和通用数据的混合数据预训练大模型，如BloombergGPT；
使用领域知识库结合通用大模型完成知识问答，例如使用Langchain +ChatGLM完成知识问答，具体就是先使用词向量模型找到文档中和问题相似的文本，利用大模型的总结能力对文本进行汇总作为输出；

以上是4种不同的垂直领域数据大模型，目前比较主流的是第1种和第4种。

而除了上述4种外，构造垂直领域的prompt 算是通用模型在垂直领域的一种应用：例如直接用in context learning的方法，通过构造和领域相关的prompt，由通用大模型直接生成回复。

我比较认同的点如下：

Q：我有很多的技术标准和领域文本数据，直接给你就能训练领域大模型了吧？

A：是也不是，纯文本只能用于模型的预训练，真正可以进行后续问答，需要的是指令数据。当然可以采用一些人工智能方法生成一些指数据，但为了保证事实性，还是需要进行人工校对的。高质量SFT数据，才是模型微调的关键。

Q：你用领域数据微调过的大模型，为什么不直接问答，还要用你的知识库？

A：外部知识主要是为了解决模型幻觉、提高模型回复准确。同时，采用外部知识库可以快速进行知识更新，相较于模型训练要快非常多。