GPT模型的Transformer架构:了解 Transformer 架构的详细信息

2017年,谷歌的作者发表了一篇论文,名为《Attention is All You Need》他们在其中引入了 Transformer 架构。这种新架构在语言翻译任务中取得了无与伦比的成功,这篇论文很快成为该领域任何人的必备读物。和其他许多人一样,当我第一次阅读这篇论文时,我可以看到其创新思想的价值,但我没有意识到这篇论文将对人工智能更广泛的其他领域产生多大的颠覆性。几年之内,研究人员将 Transformer 架构应用于语言翻译以外的许多任务,包括图像分类、图像生成和蛋白质折叠问题。特别是,Transformer 架构彻底改变了文本生成,并为 GPT 模型和我们目前在人工智能领域经历的指数级增长铺平了道路。

鉴于如今 Transformer 模型在业界和学术界的普及程度,了解其工作原理的细节对于每个人工智能从业者来说都是一项重要技能。本文将主要关注 GPT 模型的架构,这些模型是使用原始 Transformer 架构的子集构建的,但最后也会介绍原始 Transformer。对于模型代码,我将从我为原始 Transformer 找到的最清晰的编写实现开始:带注释的 Transformer来自哈佛大学。我将保留与 GPT 变压器相关的部分,并删除不相关的部分。在此过程中,我将避免对代码进行任何不必要的更改,以便您可以轻松地将类似 GPT 的代码版本与原始代码进行比较并了解差异。

本文面向经验丰富的数据科学家和机器学习工程师。特别是,我假设您精通张量代数,您已经从头开始实现了神经网络,并且您熟悉 Python。此外,尽管我已尽力使本文独立,但如果您阅读了我之前关于 GPT 模型如何工作的文章,您会更容易理解它。

这篇文章中的代码可以在GitHub 上的相关项目中找到。

https://github.com/bstollnitz/gpt-transform

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/131996342
今日推荐