Modelo de dominio grande: truco de entrenamiento y pensamiento de aterrizaje

De: Estación de trabajo de PNL

Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL

escrito en frente

Hola a todos, soy Cong Liu PNL.

El modelo de dominio grande siempre ha sido el contenido de la atención de todos. Da la casualidad de que nuestra empresa también ha creado el modelo de conocimiento de dominio grande " Pregunta en la nube" . Me gustaría aprovechar esta oportunidad para hablar sobre el truco de capacitación. del modelo de dominio grande y la implementación del modelo de dominio grande.

Pero algunos de ellos no tienen una base teórica, y son todos mi propia experiencia experimental y conclusiones, que pueden ser diferentes a las de los demás. Bienvenido a discutir, intercambiar y compartir.

Truco de entrenamiento de modelo grande de dominio

1. Los documentos de estándares técnicos de dominio o los datos relacionados con el dominio son la clave para el modelo de dominio. Continuar PreTrain.

Los modelos grandes existentes agregarán datos como libros y documentos en el proceso de pre-entrenamiento, por lo que estos dos tipos de datos son realmente indispensables en el pre-entrenamiento de campo, principalmente porque la calidad de estos datos es alta, el campo es fuertemente relacionado y conocimiento La cobertura (densidad) es alta, lo que puede hacer que el modelo sea más adecuado para la prueba. Por supuesto, esto no significa que otros datos no sean críticos. Por ejemplo, el contenido de sitios web relacionados con el campo y el contenido de noticias son todos datos importantes, pero en mi opinión personal, la importancia o la densidad del conocimiento en el campo no es tan buena como la de los libros. y normas técnicas.

2. Después del entrenamiento de datos de dominio, la capacidad general a menudo disminuirá y es necesario mezclar datos generales para evitar que el modelo olvide la capacidad general.

Si solo se utilizan datos de dominio para el entrenamiento del modelo, el modelo es propenso a un olvido catastrófico y, por lo general, se agregan datos generales durante el entrenamiento del dominio. Entonces, ¿cuál es la proporción adecuada? Todavía no hay una respuesta precisa. BloombergGPT (pre-entrenamiento desde cero) pre-entrenamiento financiero y la relación de datos generales es básicamente 1:1, y ChatHome (continuando pre-entrenamiento) encuentra que el dominio: relación de datos generales es óptima cuando es 1:5. Personalmente, siento que debe estar relacionado con la cantidad de datos en el campo, cuando la cantidad de datos no es tanta, la relación de datos general es más adecuada entre 1:5 y 1:10.afd553fec7c611ea7b73552865f438bc.png

3. Cuando el modelo de dominio continúa con el entrenamiento previo, los datos SFT se pueden agregar sincrónicamente, es decir, MIP, entrenamiento previo de instrucción multitarea.

Durante el proceso de preentrenamiento, se pueden agregar datos SFT posteriores para permitir que el modelo adquiera más conocimientos durante el proceso de preentrenamiento. Por ejemplo: el aprendizaje de tareas múltiples como T5, ExT5, Glm-130b puede ser más útil en la etapa previa al entrenamiento que en el ajuste fino. Y ChatHome descubrió que el efecto MIP es el mejor en el conjunto de evaluación en el campo.8051a22ef43178a826b9b389854855d7.png

4. Cuando solo se usa SFT como modelo de dominio, si los recursos son limitados, se usa para entrenar en base al modelo Chat, y cuando los recursos son suficientes, se usa para entrenar en el modelo Base. (recurso = datos + tarjeta gráfica)

He comentado una cuestión con mucha gente, es decir, si entrenamos en el modelo Base o en el modelo Chat cuando estamos en SFT.

De hecho, es muy simple, si solo tiene 5k de datos, se recomienda ajustar el modelo de Chat, si tiene 100,000 datos, se recomienda ajustar el modelo Base. Debido a que no conoce la calidad de los datos del modelo de Chat en SFT, cuando tiene la capacidad, es mejor confiar en otros que en usted mismo.

5. Al realizar SFT en el modelo de chat, siga el comando del sistema original y el formato de entrada de datos del modelo de chat.

Si realiza SFT en el modelo de Chat, sea consistente con el formato de entrada del modelo de Chat; de lo contrario, cuando no tenga datos suficientes, el efecto de entrenamiento puede no ser obvio. Y se recomienda no utilizar el entrenamiento completo de parámetros, de lo contrario, se olvidará más la capacidad original del modelo.

6. El contenido necesario del conjunto de evaluación de campo, se recomienda tener dos copias, una para evaluación automática en forma de preguntas de opción múltiple y otra para evaluación manual en forma abierta.

Asegúrese de tener su propio conjunto de datos de dominio para verificar el efecto del modelo y elegir el mejor punto de control. La forma de preguntas de opción múltiple se puede evaluar automáticamente, lo cual es conveniente para la selección inicial del modelo; la forma abierta de evaluación manual requiere mucho tiempo y se puede utilizar para una selección fina, y el formulario de tareas está más cerca del escena real

7. ¿Es necesario ampliar el vocabulario del modelo de dominio?

Personalmente, el verdadero problema resuelto por la expansión del vocabulario del dominio es el problema de la eficiencia de decodificación, que puede no mejorar mucho el efecto del modelo. (La expansión del vocabulario del dominio aquí se refiere a la expansión del vocabulario en el mismo modelo de idioma, en lugar de la localización en chino del modelo en inglés)

8. Los llamados modelos de dominio grande se actualizarán cada vez más rápido, y más y más.

Dado que muchas personas y empresas no tienen los recursos para participar en las bases, se requiere una capacitación previa incremental y un ajuste fino en los modelos base existentes. Sin embargo, con la postura actual de cada fábrica (ChatGLM, BaiChuan, Qwen, Llama) ocupando la proporción de la comunidad de código abierto, parece que muchos modelos de nivel 7B y 13B serán de código abierto.

Espere el día en que ChatGPT abra el modelo pequeño de código abierto, tal vez cuando salga GPT5, Openai abrirá un modelo de versión pequeña de GPT3.5.

La idea de aterrizar un modelo grande en el campo.

1. A menudo se dice que la dominación de un modelo general puede ser una proposición falsa, por lo que la generalización de un modelo de dominio grande también es una proposición falsa.

Desde el comienzo del entrenamiento del modelo, he estado haciendo la pregunta de Leader Battle, si el modelo de dominio grande necesita tener la capacidad de generalización. Es como el eslogan del modelo grande Pangu de Huawei "solo haz cosas y no escribes poemas". ¿Es cierto que el modelo grande en el campo de la formación puede resolver algunas tareas fijas?

Mi humilde opinión es que si desea implementar rápidamente un modelo de dominio grande, la forma más fácil es actualizar las capacidades originales del sistema, es decir, el efecto del modelo grande en una o varias tareas fijas supera el del modelo original. .

Tomando la tarea Text2SQL como ejemplo, los métodos en muchos sistemas anteriores se resolvieron extrayendo elementos clave y empalmando.La solución de extremo a extremo no es muy ideal, por lo que ahora se puede resolver mediante la capacidad de generar un modelo a gran escala. SQL. Actualizar los productos existentes es la forma menos costosa de aterrizar. Tome el "Ask in the Cloud" realizado por nuestra empresa como ejemplo, el efecto puede alcanzar más del 90% en la resolución de tareas de SQL en un campo determinado, que es mucho más alto que el modelo de código abierto existente y la API abierta.

Por supuesto, hay muchas otras tareas que se pueden actualizar, como: D2QA, D2SPO, Searh2Sum, etc.0acd1f20ebfbab2fed3a56444f4ee05d.png

2. Cuando se implementa el modelo a gran escala del campo, el escenario de la tarea es más importante que la capacidad del modelo.

Aunque actualizar los productos existentes es la forma menos costosa de implementar, GPT4 y AutoGPT han despertado mucho el apetito de las personas. Todos esperan presentar directamente una demanda, y el modelo grande puede resolverla directamente. Pero es muy difícil para el modelo de dominio existente, por lo que es muy importante usar el modelo grande en qué escenarios y cómo empaquetar el modelo, incluso en el caso de capacidades de modelo insuficientes, también puede permitir que los usuarios tengan una buena experiencia. .

Ahora muchas personas se preguntan, y mucho menos si hay un modelo grande, incluso si hay un modelo grande, no saben dónde usarlo y no pueden encontrar una escena especial en el dominio privado.

Entonces, al final, el aterrizaje del modelo grande no se trata del efecto del modelo en sí, sino de todo un conjunto de soluciones de la industria, y el "Know How" se ha convertido en un elemento clave.

3. Las especificaciones del modelo final de la mayoría de las empresas se limitan a 13B.

Debido a las condiciones nacionales, la solución final de la mayoría de las empresas debe ser la implementación localizada, lo que implicará la cuestión de los equipos de hardware. No creo que haya muchos modelos de nivel 100B que muchas empresas puedan implementar, pero creo que la implementación real se limita al nivel 10B. Aunque muchos métodos (por ejemplo: llama.cpp) pueden acelerar modelos grandes, incluso si se acelera el modelo de nivel 100B, sigue consumiendo muchos recursos.

Dije antes que "las personas que no han experimentado el modelo 33B solo pensarán que el 13B es suficiente", y se debe construir un modelo más grande, pero no afecta el aterrizaje final del nivel 10B.

El viaje mental de hacer un modelo grande

Cuando ChatGPT explotó por primera vez, nunca se me ocurrió que también estábamos equipados para hacer modelos grandes. Pero cuando surgieron muchos modelos chinos grandes en China, y el modelo Alpaca demostró que el modelo con 7 mil millones de parámetros también tiene buenos resultados, me dio mucha confianza y, por supuesto, también le dio más confianza a muchas personas y muchas empresas.

Al hacer modelos a gran escala en pequeñas y medianas empresas, lo que a menudo se cuestiona es "puedes hacer modelos a gran escala sin 100 tarjetas". Solo quiero decir que debes mirar la definición de "grande". De hecho, el modelo 175B no está calificado para tocar, pero el modelo 33B aún se puede reproducir. Se necesita un grupo de personas para realmente ponerse al día con OpenAI, pero se necesita otro grupo de personas para implementar el modelo.

Es nuestra suerte ponernos al día con el gran modelo, y es mi suerte poder hablar sobre el gran modelo en el campo.

Resumir

Finalmente, ánimo: TextCNN todavía se usa en la era BERT, ¿no se llama modelo grande al modelo 13B?

Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/132200560
Recomendado
Clasificación