La diferencia entre usar y no usar vectores de palabras previamente entrenados

Vectores de palabras previamente entrenados

Para situaciones en las que hay menos datos de entrenamiento, el uso de vectores de palabras previamente entrenados puede incrustar alguna información de palabras previa actualmente interpretable o no interpretable en el vector de palabras, y este conocimiento previo es útil para las tareas de entrenamiento de vectores de palabras posteriores, especialmente Muy útil para conjuntos de datos pequeños . La selección de vectores de palabras previamente entrenados considera principalmente dos factores: corpus y dimensión.

La selección del corpus debe ser coherente con el tipo de texto de los datos de entrenamiento. Por ejemplo, el inglés corresponde al conjunto de preentrenamiento en inglés, el chino corresponde al conjunto de preentrenamiento chino y el texto de noticias corresponde preferiblemente al conjunto de preentrenamiento. del texto informativo.
Las dimensiones de los vectores de palabras previamente entrenados deben ser coherentes con las dimensiones de los vectores de palabras personalizados.

(Primero, el propósito

A través de las características de correlación (estructura del lenguaje contextual) entre palabras y palabras entrenadas, se puede aplicar a características contextuales similares para compensar los datos de entrenamiento insuficientes para aprender las características generales de la estructura del lenguaje.

(2) La diferencia entre usar y no usar vectores de palabras previamente entrenados

El uso de vectores de palabras previamente entrenados representará información semántica con la relación entre las palabras previamente entrenadas;
Los vectores de palabras inicializadas generadas aleatoriamente no pueden predecir la palabra objetivo mediante la aparición de palabras de contexto específicas;
Es decir, si hay una palabra de contexto en el conjunto de preentrenamiento en los datos de entrenamiento, se puede generar un objetivo preciso después del entrenamiento posterior de la red neuronal. No es necesario propagar hacia atrás y actualizar el valor de peso entrante, de lo contrario el peso necesita ser actualizado constantemente Parámetros para implementar el descenso de gradiente al punto más bajo para encontrar el valor óptimo. (De hecho, los vectores de palabras previamente entrenados pueden simplificar el proceso de descenso de gradiente <convergencia del modelo>, comprensión personal)