一篇文字深入GPT 大语言模型之 机器是如何理解文本、声音和视频的,走了哪些弯路,ChatGPT 背后模型的数学基础

我定期与不同领域的同事交流,享受向几乎没有数据科学背景的人们传达机器学习概念的挑战。在这里,我尝试用简单的术语解释 GPT 是如何连接的,只是这次以书面形式。

ChatGPT的流行魔力背后,有一个不受欢迎的逻辑。你向 ChatGPT 写一个提示,它会生成文本,无论它是否准确,它都类似于人类的答案。它如何能够理解您的提示并生成连贯且易于理解的答案?

变压器神经网络。该架构旨在处理大量非结构化数据(在我们的例子中是文本)。当我们说架构时,我们的意思本质上是在多个层中并行进行的一系列数学运算。通过这个方程组,引入了多项创新,帮助我们克服了文本生成方面长期存在的挑战。直到 5 年前,我们一直在努力解决这些挑战。

如果 GPT 已经存在 5 年了(事实上 GPT 论文是在 2018 年发表的),那么 GPT 不是旧新闻了吗?为什么它最近变得非常流行?GPT 1、2、3、3.5 (ChatGPT) 和 4 之间有什么区别?

所有 GPT 版本都构建在相同的架构上。然而,以下每个模型都包含更多参数,并使用更大的文本数据集进行训练。显然,后来的 GPT 版本引入了其他新奇之处,特别是在训练过程中,例如通过人类反馈进行强化学习,我们将在本博客系列的第三部分中对此进行解释。

向量、矩阵、张量。所有这些花哨的单词本质上都是包含数字块的单元。这些数字经过一系列数学运算(主要是乘法和求和),直到达到最佳输出值,即可能结果的概率。

输出值?从这个意义上来说,它就是语言模型生成的文本,对吧?是的。那么,输入值是多少?是我的提示吗?是的,但不完全是。那么后面还有什么呢

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132661833