Truco de construcción de muestra de ajuste fino de modelo grande

Entrevistador: ¿Cómo organiza el ajuste fino de modelos grandes las muestras de entrenamiento?

Usted: una pregunta y una respuesta para el entrenamiento de modelos grandes, una instrucción y una salida. Las preguntas y las instrucciones se pueden usar como entrada rápida y las respuestas como salida. La parte del cálculo de la pérdida debe bloquear el token de la almohadilla.

Entrevistador: ¿Cómo organizar muestras de capacitación en múltiples rondas de diálogo?

Usted: Suponiendo que las rondas múltiples son Q1A1/Q2A2/Q3A3, entonces se puede convertir en tres muestras de entrenamiento de Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3.

Entrevistador: En este caso, una sesión se convierte en tres datos, y los anteriores se repiten en secuencia, ¿habrá algún problema?

Usted: la mayoría de los datos son tokens de almohadilla y la eficiencia de utilización de los datos de entrenamiento es baja. Además, habrá un problema de expansión repetida de datos.La expansión repetida de datos de entrenamiento es el número de sesiones * el número promedio de rondas, y hay partes repetidas en lo anterior, y la eficiencia del entrenamiento será baja.

Entrevistador: También te diste cuenta de eso, ¿hay alguna forma de mejorarlo?

Usted: ¿Hay alguna forma de construir una sesión como muestra de entrenamiento a la vez? (Pensando)

Entrevistador: Recordatorio, limite a la serie de modelos de solo decodificador, use las características del modelo para mejorar la forma de organización de la muestra.



Para este problema, pensemos en las características del modelo de solo decodificador. El primer punto es que su forma de atención es casual. Una comprensión simple de casual es una matriz triangular. Un solo token solo puede ver la información que está arriba.

como muestra la imagen:

Supongo que te gusta

Origin blog.csdn.net/u013250861/article/details/131686901
Recomendado
Clasificación