[Curso 3-1 de la serie AIGC de modelos grandes] Metamodelo grande de código abierto: Serie Alpaca

1. LLAMA

https://arxiv.org/abs/2302.13971
LLaMA (lanzado por Meta) y GPT son dos modelos de lenguaje diferentes. Las siguientes son algunas ventajas de LLaMA sobre GPT:
● Modificaciones de arquitectura: LLaMA ha realizado algunas modificaciones basadas en la arquitectura Transformer. Por ejemplo, LLaMA utiliza prenormalización en lugar de posnormalización, lo que puede mejorar la estabilidad del entrenamiento. Además, LLaMA también introduce modificaciones arquitectónicas como la función de activación SwiGLU.
La normalización previa y la normalización posterior son dos métodos diferentes que se utilizan en la arquitectura Transformer para procesar datos de entrada.
En la arquitectura Transformer tradicional, la normalización generalmente se realiza después del mecanismo de autoatención y la red neuronal de retroalimentación de cada capa de Transformer. Específicamente, para cada subcapa, los datos de entrada primero se agregan a la entrada original a través de una conexión residual y luego se normalizan. Las operaciones de normalización suelen utilizar la normalización de capas o la normalización por lotes.
Por el contrario, la normalización previa realiza una operación de normalización antes de la entrada de cada subcapa. Específicamente, los datos de entrada se normalizan antes de pasar por las operaciones de subcapa. Este método puede mejorar la estabilidad del entrenamiento porque la operación de normalización puede reducir el rango de variación de los datos de entrada, facilitando el aprendizaje del modelo.
La función de activación SwiGLU es una función de activación mejorada que se utiliza para reemplazar la función de activación ReLU tradicional. La función de activación SwiGLU se utiliza en la arquitectura Transformer para reemplazar la función de activación no lineal en redes neuronales feedforward. La característica principal de la función de activación SwiGLU es que tiene un mecanismo de activación.

Supongo que te gusta

Origin blog.csdn.net/u011239443/article/details/132515856
Recomendado
Clasificación