主流大模型介绍

近年来最重要的发展之一是大型语言模型 (LLM) 的出现。LLM 一次处理所有顺序输入,并依靠自注意力来关注输入的小而重要的部分,这使得它们不同于一次处理一个单词的先前架构。

BERT:来自变压器的双向编码器表示

BERT 是一种双向变换器模型,在进行预测时会同时考虑左右上下文。它基于 transformer 架构,彻底改变了自然语言理解任务。BERT 在语言建模和下一句预测方面进行了预训练,可以进行微调以针对特定任务进行优化。尽管微调 BERT 比针对每个特定任务从头开始构建模型要好得多,但它仍然需要大量特定于任务的训练示例。

GPT-3:生成式预训练 Transformer 3

GPT-3 比 BERT 大得多,并且在 45TB 的数据上进行训练,而 BERT 为 3TB,并且具有 125M 到 175B 的参数,而 BERT 有 3.4 亿个参数。GPT-3 可以用更少的努力进行少样本预测。一些演示任务应如何完成的示例足以让 GPT-3 生成有凝聚力的、有意义的输出。自从 GPT-3 抓住了民粹主义的想象力,涌现的新 LLM 的数量就增加了。这些模型通过缩放模型的大小(深度和宽度)并增加来自不同数据源的训练标记的数量来进一步改进。

PaLM:路径语言模型

Google 宣布了具有 8B、62B 和 540B 参数以及 780B 令牌的 Pathways Language Model (PaLM)。与 GPT-3 相比,PaLM 在内存使用和训练时间方面似乎更高效。

LLaMA:大型语言模型元 AI

Meta 宣布了具有 7B 到 65B 参数和数万亿令牌的 LLaMA(大型语言模型元 AI)。LLaMA 基于这样一种信念,即在更多数据上训练的小型模型优于最大模型,并声称 LLaMA-13B 比 GPT-3 小 10 倍,而 LLaMA-65B 与 PaLM-540B 相当。

GPT-4:多模态语言模型

GPT-4 现已推出,并已扩展到多模式领域。我们对不久的将来即将发生的事情感到兴奋!

结论:

总之,大型语言模型正在改变 NLP 空间,并彻底改变了我们处理自然语言理解任务的方式。BERT、GPT-3、PaLM 和 LLaMA 只是众多新兴 LLM 中的几个例子,看到即将出现的进一步创新将令人兴奋。作为 AI/NLP 爱好者,了解该领域的最新发展以跟上快速变化的步伐至关重要。

猜你喜欢

转载自blog.csdn.net/ccc7574/article/details/131248241