Architecture Transformer du modèle GPT : En savoir plus sur l'architecture Transformer

En 2017, les auteurs de Google ont publié un article intitulé "Attention is All You Need" dans lequel ils ont présenté l'architecture Transformer. Cette nouvelle architecture a obtenu un succès inégalé dans les tâches de traduction linguistique, et le document est rapidement devenu incontournable pour quiconque dans le domaine. Comme beaucoup d'autres, lorsque j'ai lu cet article pour la première fois, j'ai pu voir la valeur de ses idées innovantes, mais je n'avais pas réalisé à quel point cet article serait perturbateur pour le reste du domaine plus large de l'IA. En quelques années, les chercheurs appliquaient l'architecture Transformer à de nombreuses tâches au-delà de la traduction linguistique, notamment la classification d'images, la génération d'images et les problèmes de repliement des protéines. En particulier, l'architecture Transformer a révolutionné la génération de texte et ouvert la voie aux modèles GPT et à la croissance exponentielle que nous connaissons actuellement dans l'IA.

Compte tenu de la popularité des modèles Transformer dans l'industrie et le milieu universitaire aujourd'hui, comprendre les détails de leur fonctionnement est une compétence importante pour chaque praticien de l'IA. Cet article se concentrera principalement sur l'architecture des modèles GPT construits à l'aide d'un sous-ensemble de l'architecture Transformer d'origine, mais présentera également le Transformer d'origine à la fin. Pour le code du modèle, je commencerai par l'implémentation écrite la plus propre que j'ai trouvée pour le Transformer original : Annotated Transformer de l'Université de Harvard. Je vais garder les parties liées au transformateur GPT et supprimer les parties non pertinentes. Au cours de ce processus, j'éviterai d'apporter des modifications inutiles au code afin que vous puissiez facilement comparer la version du code de type GPT avec le code d'origine et comprendre les différences.

Cet article est destiné aux data scientists et aux ingénieurs en machine learning expérimentés. En particulier, je suppose que vous parlez couramment l'algèbre tensorielle, que vous avez implémenté un réseau de neurones à partir de rien et que vous connaissez Python. De plus, même si j'ai essayé de rendre cet article autonome, il sera plus facile à comprendre si vous lisez mon article précédent sur le fonctionnement du modèle GPT.

Le code de cet article se trouve dans le projet associé sur GitHub.

https://github.com/bstollnitz/gpt-transform

Je suppose que tu aimes

Origine blog.csdn.net/iCloudEnd/article/details/131996342
conseillé
Classement