一篇文字深入GPT 大语言模型之机器是如何理解文本、声音和视频的，走了哪些弯路，ChatGPT 背后模型的数学基础

我定期与不同领域的同事交流，享受向几乎没有数据科学背景的人们传达机器学习概念的挑战。在这里，我尝试用简单的术语解释 GPT 是如何连接的，只是这次以书面形式。

ChatGPT的流行魔力背后，有一个不受欢迎的逻辑。你向 ChatGPT 写一个提示，它会生成文本，无论它是否准确，它都类似于人类的答案。它如何能够理解您的提示并生成连贯且易于理解的答案？

变压器神经网络。该架构旨在处理大量非结构化数据（在我们的例子中是文本）。当我们说架构时，我们的意思本质上是在多个层中并行进行的一系列数学运算。通过这个方程组，引入了多项创新，帮助我们克服了文本生成方面长期存在的挑战。直到 5 年前，我们一直在努力解决这些挑战。

如果 GPT 已经存在 5 年了（事实上 GPT 论文是在 2018 年发表的），那么 GPT 不是旧新闻了吗？为什么它最近变得非常流行？GPT 1、2、3、3.5 (ChatGPT) 和 4 之间有什么区别？

所有 GPT 版本都构建在相同的架构上。然而，以下每个模型都包含更多参数，并使用更大的文本数据集进行训练。显然，后来的 GPT 版本引入了其他新奇之处，特别是在训练过程中，例如通过人类反馈进行强化学习，我们将在本博客系列的第三部分中对此进行解释。

向量、矩阵、张量。所有这些花哨的单词本质上都是包含数字块的单元。这些数字经过一系列数学运算（主要是乘法和求和），直到达到最佳输出值，即可能结果的概率。

输出值？从这个意义上来说，它就是语言模型生成的文本，对吧？是的。那么，输入值是多少？是我的提示吗？是的，但不完全是。那么后面还有什么呢

一篇文字深入GPT 大语言模型之 机器是如何理解文本、声音和视频的，走了哪些弯路，ChatGPT 背后模型的数学基础