Proceso de formación de LLM-chatgpt

Introducción al proceso

  • Incluye principalmente dos etapas: preentrenamiento del modelo y ajuste de la instrucción.
    • Entrenamiento previo del modelo: recopile datos de texto masivos y entrenamiento no supervisado del decodificador autorregresivo;
      OT = P ( O t < T ) O_T=P(O_{t<T})oht=PAG ( Ot < T) , función de pérdida Pérdida CE
    • Ajuste de instrucciones: agregue indicaciones de tareas al texto de entrada.
      • Ingrese "Traducir texto al inglés: entrenamiento no supervisado. Traducción:" y deje que el modelo genere "No supervisado"
      • También es un proceso de entrenamiento autorregresivo. La función de pérdida es la misma que la del preentrenamiento, pero los datos de entrada tienen un paradigma.

Ajuste de instrucciones

Insertar descripción de la imagen aquí

  • El ajuste de la instrucción generalmente se divide en tres etapas:
    • Recopile una gran cantidad de preguntas de los usuarios, invite a profesionales a brindar respuestas de alta calidad y luego utilice estos datos para realizar ajustes y generar modelos;
    • Deje que el modelo generativo entrenado brinde múltiples respuestas basadas en las preguntas de los usuarios e invite a personas reales a calificar la calidad de las respuestas. El usuario entrena el modelo de recompensa con estos datos puntuados;
    • Al combinar el modelo generativo y el modelo de recompensa, puede generar respuestas usted mismo, evaluar la calidad de los resultados usted mismo y optimizar continuamente.

Blog de referencia

entrenamiento modelo de brightliao-ChatGPT

Supongo que te gusta

Origin blog.csdn.net/qq_40168949/article/details/132498605
Recomendado
Clasificación