主流大模型介绍

近年来最重要的发展之一是大型语言模型 (LLM) 的出现。LLM 一次处理所有顺序输入，并依靠自注意力来关注输入的小而重要的部分，这使得它们不同于一次处理一个单词的先前架构。

BERT：来自变压器的双向编码器表示

BERT 是一种双向变换器模型，在进行预测时会同时考虑左右上下文。它基于 transformer 架构，彻底改变了自然语言理解任务。BERT 在语言建模和下一句预测方面进行了预训练，可以进行微调以针对特定任务进行优化。尽管微调 BERT 比针对每个特定任务从头开始构建模型要好得多，但它仍然需要大量特定于任务的训练示例。

GPT-3：生成式预训练 Transformer 3

GPT-3 比 BERT 大得多，并且在 45TB 的数据上进行训练，而 BERT 为 3TB，并且具有 125M 到 175B 的参数，而 BERT 有 3.4 亿个参数。GPT-3 可以用更少的努力进行少样本预测。一些演示任务应如何完成的示例足以让 GPT-3 生成有凝聚力的、有意义的输出。自从 GPT-3 抓住了民粹主义的想象力，涌现的新 LLM 的数量就增加了。这些模型通过缩放模型的大小（深度和宽度）并增加来自不同数据源的训练标记的数量来进一步改进。

PaLM：路径语言模型

Google 宣布了具有 8B、62B 和 540B 参数以及 780B 令牌的 Pathways Language Model (PaLM)。与 GPT-3 相比，PaLM 在内存使用和训练时间方面似乎更高效。

LLaMA：大型语言模型元 AI

Meta 宣布了具有 7B 到 65B 参数和数万亿令牌的 LLaMA（大型语言模型元 AI）。LLaMA 基于这样一种信念，即在更多数据上训练的小型模型优于最大模型，并声称 LLaMA-13B 比 GPT-3 小 10 倍，而 LLaMA-65B 与 PaLM-540B 相当。

GPT-4：多模态语言模型

GPT-4 现已推出，并已扩展到多模式领域。我们对不久的将来即将发生的事情感到兴奋！

结论：

总之，大型语言模型正在改变 NLP 空间，并彻底改变了我们处理自然语言理解任务的方式。BERT、GPT-3、PaLM 和 LLaMA 只是众多新兴 LLM 中的几个例子，看到即将出现的进一步创新将令人兴奋。作为 AI/NLP 爱好者，了解该领域的最新发展以跟上快速变化的步伐至关重要。

猜你喜欢