05 Modelo de lenguaje de red neuronal (codificación one-hot + origen del vector de palabra)


modelo de lenguaje estadístico

Estadísticas + Modelo de lenguaje: "Use métodos estadísticos para completar las siguientes dos tareas relacionadas con lo que dice la gente

Modelo de lenguaje = lenguaje (lo que dice la gente) + modelo (para completar dos tareas)

  1. Comparar, "Partes del discurso", "Magnetismo"
  2. Predecir la siguiente palabra (completar el espacio en blanco)

modelo de lenguaje n-grama

Toma (2, 3, 4) palabras

Modelo de lenguaje de red neuronal

Red neuronal + Modelo de lenguaje: "Use el método de red neuronal para completar las siguientes dos tareas relacionadas con lo que dice la gente.

Segunda tarea:

"juicio", "un", "palabra", "de", " ___"

Supongamos que hay "parte del discurso" y "Marte" en el diccionario de sinónimos

P( __|"juicio", "un", "palabra", "de")

Parte del discurso

imagen

w1,w2,w3,w4 (codificación one-hot de las 4 palabras anteriores)

w1*Q=c1,
w2*Q=c2,
w3*Q=c3,
w4*Q=c4,

C=[c1,c2,c3,c4]
Q就是一个随机矩阵,是一个参数(可学习)

"juicio", "esto", "palabra", "de", "parte del discurso"

softmax(U[tanh(WC+b1)]+b2)== [0.1, 0.1, 0.2, 0.2, 0.4] ∈ [ 1 , VL ] \in[1,V_L][ 1 ,VL]

Codificación one-hot (codificación one-hot)

One Hot Encoding: Hacer que las computadoras sepan palabras

imagen

Diccionario V (todas las palabras del diccionario Xinhua se combinan en un conjunto V)

Supongamos que solo hay 8 palabras en el diccionario.

la computadora no entiende palabras

Pero queremos que las computadoras reconozcan palabras

"fruta"

Codificación one-hot: Dada una matriz de 8*8

“tiempo” --》 10000000

“fruta” --》 01000000

“plátano” --》 00000001

Similitud de coseno para calcular la similitud entre los dos (0) – vector de palabra (multiplicación de matriz)

Vectores de palabras (subproducto Q del modelo de lenguaje de red neuronal)

dame cualquier palabra,

"Juicio" --" codificación one-hot w1 [1,0,0,0,0]

w1*Q =c1 (la palabra vector de la palabra "juicio")

Vector de palabra: use un vector para representar una palabra

La dimensión (tamaño) del vector de palabra se puede controlar

Si obtenemos vectores de palabras, también se resuelve el primer problema (tarea posterior)

Resumir

Modelo de lenguaje de red neuronal: Resolviendo el problema de dos personas hablando a través de redes neuronales

Hay un subproducto: matriz Q - "nuevo vector de palabra (el vector de palabra puede elegir la dimensión del vector de palabra y puede encontrar la similitud entre dos palabras)

tarea aguas abajo

Supongo que te gusta

Origin blog.csdn.net/linjie_830914/article/details/131614714
Recomendado
Clasificación