modelo de lenguaje estadístico
Estadísticas + Modelo de lenguaje: "Use métodos estadísticos para completar las siguientes dos tareas relacionadas con lo que dice la gente
Modelo de lenguaje = lenguaje (lo que dice la gente) + modelo (para completar dos tareas)
- Comparar, "Partes del discurso", "Magnetismo"
- Predecir la siguiente palabra (completar el espacio en blanco)
modelo de lenguaje n-grama
Toma (2, 3, 4) palabras
Modelo de lenguaje de red neuronal
Red neuronal + Modelo de lenguaje: "Use el método de red neuronal para completar las siguientes dos tareas relacionadas con lo que dice la gente.
Segunda tarea:
"juicio", "un", "palabra", "de", " ___
"
Supongamos que hay "parte del discurso" y "Marte" en el diccionario de sinónimos
P( __
|"juicio", "un", "palabra", "de")
Parte del discurso
w1,w2,w3,w4 (codificación one-hot de las 4 palabras anteriores)
w1*Q=c1,
w2*Q=c2,
w3*Q=c3,
w4*Q=c4,
C=[c1,c2,c3,c4]
Q就是一个随机矩阵,是一个参数(可学习)
"juicio", "esto", "palabra", "de", "parte del discurso"
softmax(U[tanh(WC+b1)]+b2)== [0.1, 0.1, 0.2, 0.2, 0.4] ∈ [ 1 , VL ] \in[1,V_L]∈[ 1 ,VL]
Codificación one-hot (codificación one-hot)
One Hot Encoding: Hacer que las computadoras sepan palabras
Diccionario V (todas las palabras del diccionario Xinhua se combinan en un conjunto V)
Supongamos que solo hay 8 palabras en el diccionario.
la computadora no entiende palabras
Pero queremos que las computadoras reconozcan palabras
"fruta"
Codificación one-hot: Dada una matriz de 8*8
“tiempo” --》 10000000
“fruta” --》 01000000
“plátano” --》 00000001
Similitud de coseno para calcular la similitud entre los dos (0) – vector de palabra (multiplicación de matriz)
Vectores de palabras (subproducto Q del modelo de lenguaje de red neuronal)
dame cualquier palabra,
"Juicio" --" codificación one-hot w1 [1,0,0,0,0]
w1*Q =c1 (la palabra vector de la palabra "juicio")
Vector de palabra: use un vector para representar una palabra
La dimensión (tamaño) del vector de palabra se puede controlar
Si obtenemos vectores de palabras, también se resuelve el primer problema (tarea posterior)
Resumir
Modelo de lenguaje de red neuronal: Resolviendo el problema de dos personas hablando a través de redes neuronales
Hay un subproducto: matriz Q - "nuevo vector de palabra (el vector de palabra puede elegir la dimensión del vector de palabra y puede encontrar la similitud entre dos palabras)
tarea aguas abajo