La explicación de Zero Yiwu sobre el proceso de entrenamiento del Yi-34B

Antecedentes del evento:

El modelo Yi de código abierto de la empresa de inteligencia artificial de Kai-fu Lee, "Zero One Everything", copia la arquitectura Llama
"Zero One Everything" responde al modelo grande de código abierto "shell" Llama de Yi

Lingyiwanwu emitió oficialmente un documento hoy para responder a la controversia causada por el modelo grande de código abierto de Yi:

Con base en la observación y el análisis de Zero One Thousand Things, la gran comunidad de modelos se encuentra ahora en una etapa de convergencia gradual hacia la generalización en términos de arquitectura técnica. Básicamente, los grandes modelos internacionales convencionales se basan en la arquitectura Transformer, que presta atención, activación y normalización . Con cambios en la incrustación posicional y otras partes, las arquitecturas de LLaMA, Chinchilla, Gopher y otros modelos son similares a la arquitectura GPT. Hay muchos cambios en los modelos basados en las arquitecturas principales en la comunidad global de código abierto, y El ecosistema está prosperando. La mayoría de los modelos de código abierto lanzados a nivel nacional también adoptan cambios graduales. La arquitectura GPT/LLaMA estándar de la industria. Sin embargo, el punto central del desarrollo continuo de modelos grandes y la búsqueda de avances no radica solo en la arquitectura, sino también en los parámetros obtenidos mediante el entrenamiento .

El proceso de formación del modelo es como cocinar un plato: la arquitectura solo determina las materias primas y los pasos aproximados de cocción, lo que poco a poco ha ido formando un consenso entre la mayoría de la gente. Para entrenar un buen modelo, necesita mejores "materias primas" (datos) y control de los detalles de cada paso (métodos de entrenamiento y parámetros específicos) . Dado que el desarrollo de la tecnología de modelos grandes aún se encuentra en sus primeras etapas, desde un punto de vista técnico, el consenso de la industria es mantener una estructura de modelo que sea consistente con los modelos convencionales, lo que es más propicio para la adaptación general y las iteraciones futuras.

En el proceso de entrenamiento del modelo, Zero One Thousand Things sigue la arquitectura básica de GPT/LLaMA y gracias a la contribución de código abierto de la comunidad LLaMA, Zero One Thousand Things puede comenzar rápidamente. Lingyiwanwu entrenó los modelos Yi-34B y Yi-6B desde cero , volvió a implementar el código de entrenamiento de acuerdo con el marco de entrenamiento real y utilizó una canalización de datos de construcción propia para construir un conjunto de datos de entrenamiento de alta calidad (de los datos originales de 3PB). se selecciona para datos de alta calidad del token 3T). Además, en la parte de infraestructura, el algoritmo, el hardware y el software se optimizan conjuntamente de extremo a extremo para lograr avances originales como el doble de la eficiencia del entrenamiento y una fuerte tolerancia a fallas. Estos esfuerzos sistemáticos en la formación de modelos científicos a menudo desempeñan un papel y un valor mayores que la estructura del modelo básico.

En los experimentos previos al entrenamiento, el equipo de 01Wanyuan probó diferentes proporciones de datos y seleccionó científicamente el plan de proporción de datos óptimo, invirtiendo la mayor parte de su energía en ajustar los métodos de entrenamiento, proporciones de datos, ingeniería de datos, parámetros detallados y cuidado de niños (monitoreo del proceso de entrenamiento). habilidades, etc Esta serie de tareas de investigación y desarrollo que van más allá de la arquitectura del modelo, la investigación y la ingeniería avanzadas y son avances de vanguardia son verdaderamente el núcleo más crítico del entrenamiento de modelos y pueden formar una acumulación de conocimientos para un gran foso de tecnología de modelos . Mientras entrenaba el modelo, Zero One Wish también realizó una gran cantidad de experimentos y verificaciones comparativas en varios nodos clave en la estructura del modelo. Por ejemplo, experimentamos con Atención de consultas grupales (GQA), Atención de múltiples cabezas (MHA) y Atención vainilla y elegimos GQA. Experimentamos con cambios en Pre-Norma y Post-Norma en diferentes anchos y profundidades de red, y elegimos Pre-Norma. -Se utiliza norma, RoPE ABF se utiliza como incrustación posicional, etc. Fue durante estos experimentos y procesos de exploración que el modelo cambió el nombre de algunos parámetros de inferencia para poder realizar experimentos comparativos.

Durante el proceso inicial de código abierto de Zero One Thousand Things, descubrimos que usar la arquitectura LLaMA, que se usa comúnmente en la comunidad de código abierto, sería más amigable para los desarrolladores. Respecto a la negligencia en el uso de algunos de los códigos de inferencia de LLaMA después Cambio de nombre experimental, el punto de partida original era probar completamente el modelo y la fuente no se oculta deliberadamente. Lingyiwuwu explicó esto y expresó nuestras más sinceras disculpas . Estamos en el proceso de volver a enviar modelos y códigos a varias plataformas de código abierto y complementar copias del protocolo LLaMA, y prometemos completar las actualizaciones de versión de cada comunidad de código abierto lo antes posible.

Estamos muy agradecidos por los comentarios de la comunidad. Yi Open-source acaba de comenzar en la comunidad de código abierto y espera trabajar con todos para crear prosperidad en la comunidad. Después del reciente lanzamiento de Chat Model, publicaremos informes técnicos en momentos seleccionados. . Yi Open-source hará todo lo posible para aprender con humildad. , progreso continuo.

Referencia de discusión de la comunidad de código abierto:
https://huggingface.co/01-ai/Yi-34B/discussions/11#6553145873a5a6f938658491

El CMO de Sinovation Ventures dijo en el círculo de amigos que reenviaron el artículo anterior: "Si la industria evoluciona y se convierte gradualmente en una infraestructura universal y ecológica, ¿se convertirá en una" maqueta e imitación "? (Al igual que los desarrolladores de aplicaciones móviles beneficiarse de iOS y Android (estructura común). Zero One Wish continuará aprendiendo humildemente de la comunidad y seguirá progresando".

Texto original: https://mp.weixin.qq.com/s/aDclX74mPPtjQvco3GYmZQ

La explicación de Zero Yiwu sobre el proceso de entrenamiento del Yi-34B

Supongo que te gusta