Arquitectura de transformador del modelo GPT: Obtenga más información sobre la arquitectura de transformador

En 2017, los autores de Google publicaron un artículo llamado "La atención es todo lo que necesitas" en el que introdujeron la arquitectura Transformer. Esta nueva arquitectura logró un éxito inigualable en las tareas de traducción de idiomas, y el documento se convirtió rápidamente en una lectura obligada para cualquier persona en el campo. Como muchos otros, cuando leí este documento por primera vez, pude ver el valor de sus ideas innovadoras, pero no me di cuenta de cuán disruptivo sería este documento para el resto del campo más amplio de la IA. En unos pocos años, los investigadores estaban aplicando la arquitectura Transformer a muchas tareas más allá de la traducción de idiomas, incluida la clasificación de imágenes, la generación de imágenes y los problemas de plegamiento de proteínas. En particular, la arquitectura de Transformer revolucionó la generación de texto y allanó el camino para los modelos GPT y el crecimiento exponencial que estamos experimentando actualmente en IA.

Dada la popularidad de los modelos Transformer en la industria y el mundo académico actual, comprender los detalles de cómo funcionan es una habilidad importante para todos los profesionales de la IA. Este artículo se centrará principalmente en la arquitectura de los modelos GPT creados con un subconjunto de la arquitectura Transformer original, pero también presentará el Transformer original al final. Para el código del modelo, comenzaré con la implementación escrita más limpia que encontré para el Transformador original: Transformador anotado de la Universidad de Harvard. Mantendré las partes relacionadas con el transformador GPT y eliminaré las partes irrelevantes. Durante este proceso, evitaré realizar cambios innecesarios en el código para que pueda comparar fácilmente la versión del código similar a GPT con el código original y comprender las diferencias.

Este artículo está destinado a científicos de datos experimentados e ingenieros de aprendizaje automático. En particular, asumo que domina el álgebra tensorial, ha implementado una red neuronal desde cero y está familiarizado con Python. Además, aunque he intentado que este artículo sea independiente, será más fácil de entender si lee mi artículo anterior sobre cómo funciona el modelo GPT.

El código de este artículo se puede encontrar en el proyecto relacionado en GitHub.

https://github.com/bstollnitz/gpt-transform

Supongo que te gusta

Origin blog.csdn.net/iCloudEnd/article/details/131996342
Recomendado
Clasificación