Se lee un texto con el procesamiento del lenguaje natural --word representan cambios en la tecnología (a partir del modelo BERT bool)

navegación de páginas blog personal (haga clic a la derecha de enlace para abrir un blog personal): Daniel lo lleve en la pila de tecnología 

I. Antecedentes

    procesamiento del lenguaje natural es la de hacer que las computadoras entienden el lenguaje humano, como hasta ahora, si el equipo realmente entender el lenguaje humano, que es un desconocido, mi entendimiento es, con mucho, no entender el lenguaje humano, sólo para tabla de consulta una probabilidad máxima de respuesta a ella. Así Procesamiento del Lenguaje Natural (PLN) en el campo de lo que no lo incluyen? categorización de textos (por ejemplo: clasificación de correo no deseado, análisis de sentimientos), la traducción automática, el resumen, el análisis de la gramática, la segmentación, el etiquetado POS, el reconocimiento de entidades (NER), reconocimiento de voz, etc., son un problema que hay que resolver PNL. A continuación, la solución de estos problemas, si su equipo realmente entender el significado del lenguaje humano, es aún desconocido, pero el número de artículos a discutir la película. Unidad de la lengua es la palabra, el ordenador es la forma de representar las palabras, lo que la tecnología para representar una palabra, puede dejar que la computadora entiende el significado de la palabra que? Este blog se discutirá en detalle, a partir del modelo bool, el modelo de espacio vectorial, a una variedad de palabra incrustación (word2vec, Elmo, GPT, BERT)

En segundo lugar, la época original,

    Antes de aprendizaje profundo, representar una palabra, no una forma prescriptiva, la forma de representar, dependiendo de la tarea de tratar de resolver.

    1, el modelo de Bool

    Aquí hay dos frases, buscan similitud texto.

    Me gusta Leslie

    Te gusta Andy Lau

    Así, el modelo booleano es relativamente simple y crudo, había una dimensión en la que la palabra es 1, en donde las dimensiones de no-show es 0, como se muestra a continuación:

   

   Entonces podemos pedir coseno de dos vectores.

   En bool modelo, ya que el valor de la característica sólo dos valores 0 y 1, el grado de importancia no están bien caracterizada en términos de la reacción en el texto.

    2, VSM (modelo de espacio de vector)

    modelo Bool en realidad puede ser visto como un caso especial de VSM, VSM cada valor de dimensión sólo van a llenar de algunas reglas especiales para el manejo de Bale, VSM a continuación:

    

    en la que t representa plazo, d representa un documento, entonces D puede representarse como D = {t1, t2, t3 ...... tN} vector N-dimensional, el valor de w es cómo llenarlo? Tuvo que practicar TF * IDF, TF representa una frecuencia de la palabra, la FID indica una frecuencia de contador de palabras, utilizando la siguiente fórmula:

    Frecuencia y el número total de palabras / documento TF (t) = la palabra característica aparece en el documento

    IDF (t) = log (N / (n + 1)), donde N es el número total de texto en un conjunto de texto, n es el número de documentos que contienen la palabra característica t

    Por supuesto TF * IDF también tiene sus defectos, haciendo caso omiso de la distribución entre la distribución de la clase clases e ignorado, entonces hay algunas mejoras, tales como: TF * IDF * IG, IG que indica la ganancia.

   La representación de estas palabras / documento, muy mecánico, no reflejan la relación entre el contexto entre las palabras y las palabras de relaciones similares.

En tercer lugar, la profundidad de la edad de aprendizaje

    En primer lugar, hay que mencionar un modelo de lenguaje, el modelo de lenguaje en la estimación de la probabilidad de ocurrencia de una frase, mayor es la probabilidad, la más razonable.

    P (W1, W2, W3, ...... wn) = P (w1) * P (W2 | W1) * P (w3 | W1, W2) ... P (wn | W1, W2 .... wn-1 )

    La fórmula anterior es por lo general no hay manera de estimación, por lo que va a hacer una suposición de Markov, el supuesto detrás de la palabra y sólo una palabra sobre la parte delantera, después se reduce a la siguiente ecuación:

     P (W1, W2, W3, ...... wn) = P (w1) * P (W2 | W1) * P (w3 | w2) ... P (wn | WN-1)

    Por supuesto, la palabra se puede asumir los anteriores N palabras detrás de la pertinente, lo que se dice a menudo N-gramo. modelo de lenguaje tiene un gran uso en Elmo y GPT.

    1, word2vec

    word2vec, de hecho, se trata de una sola red neuronal capa oculta, la idea es muy simple, ver más abajo

    

    Li Lei y Han Meimei figura anterior, todo seguido "en el aula" es la palabra, o Li Lei Han Meimei cuando la entrada a la red neuronal, las redes neuronales quieren salida "en el aula", cuanto más alto mejor las posibilidades de la palabra, el derecho a ser re-red neuronal ajustar para mapear dos palabras diferentes para el mismo espacio, a continuación, decir que existe un vínculo Mingli Lei y Han Meimei, esto es pensamiento word2vec. word2vec dos, cbow y skip-gramo, cbow es un término introducido por el contexto, SKIP-gramo es un término introducido por el contexto, como se muestra a continuación. Los resultados de mi práctica es cbow efecto tiene que ser un poco mejor.

    Este código es la forma de lograrlo? De hecho, su propia red neuronal para lograr una sola capa oculta de conseguir, salida de la función de activación de capa softmax, con la pérdida de entropía cruzada, descenso de gradiente puede ser. De hecho, no tenemos demasiados problemas, DL4J ha proporcionado una solución completa para obtener unas pocas líneas de código, el código es el siguiente:

  Word2Vec vec = new Word2Vec.Builder()
                .minWordFrequency(5)
                .iterations(1)
                .layerSize(100)
                .seed(42)
                .windowSize(5)
                .iterate(iter)
                .tokenizerFactory(t)
                .build();

   vec.fit();

      2, ELMO

    ELMO para llevar a Inclusiones de las iniciales del modelo de lenguaje, dirección de papel: https: //arxiv.org/abs/1802.05365

   Inclusiones se deriva del modelo de lenguaje. Hablando antes de la ELMO, primero es que word2vec tienen alguna pregunta, word2vec sin duda puede representar las relaciones semánticas entre palabras y entre sí con la palabra, pero es un word2vec estática totalmente, es decir, toda la información se comprime a un fijo vector dimensional en. Así que para significado de varias palabras, es la expresión es relativamente limitada. Consideremos el siguiente ejemplo,

    En la "carta justos en el mundo para estar" en "letra" es el verbo, "estiramiento" medios

    En la "fe en todo el mundo", la "carta" es un sustantivo, significa "crédito"

    Si la "confianza" comprime en un vector de 100 dimensiones, será difícil distinguir la diferencia entre estos dos significados, a continuación, esto requiere Contextualizado Palabra incrustación, en función del contexto de la palabra está codificado, por lo ELMO vino.

    EMLO estructura es muy simple, con LSTM bidireccional para entrenar un modelo de lenguaje. Como se muestra a continuación (como cuadros de la Universidad Nacional de Taiwán CHANG ppt)

    

    proceso de formación modelo es muy simple, leer una palabra, la palabra la palabra siguiente, a la inversa leer una palabra, una palabra en el pronóstico, este entrenamiento continúa hasta la convergencia. Azul y rojo cuadro naranja vector en la incorporación del medio es un vector, y finalmente recoger lo que queremos el vector, por supuesto, esta bi-LSTM muchas capas se pueden apilar. Incorporación de cada capa para obtener un vector.

    

    Por lo tanto, cuando se utiliza el código de cómo utilizar el valor de la misma? Dependiendo de las tareas de aguas abajo, por ejemplo cada capa puede incrustación promedio vector suma, suma ponderada o similar, el peso puede salir junto con el tren a lo largo con la tarea.

    3, GPT

    ELMO se dio cuenta de la palabra de codificación dinámica, pero usó LSTM, LSTM y no puede recordar un mensaje largo, y no es propicio para la computación paralela. GPT con atención auto para cambiar este resultado, por supuesto, todo esto gracias a Dios por Google "La atención es lo que necesitas" Libro Dirección: https://arxiv.org/pdf/1706.03762.pdf

    GPT es la forma en la operación del proceso que? De hecho, la atención el uso de auto entrenamiento de un modelo de lenguaje, ver más abajo:

    

    El frente de cada palabra y palabra hacer atención, predecir la siguiente palabra, por ejemplo, lee los BOS etiqueta de inicio, a continuación, hacer usted y su atención, predijo "la marea", se lee en la BOS, la marea, y luego BOS, marea hacer atención, la previsión "atrás", y así sucesivamente hasta el final. tren para ir en muchas corpus, obtenemos una muy potente modelo de lenguaje puede ser codificado de forma dinámica. Al utilizar parámetros fijos pueden vivir en estas capas de atención, a continuación, entrenar otras tareas secundarias, como haciendo el sentimiento problema de clasificación, puede poner los estratos atención en unos pocos capa de conexión full-frontal, parámetros fijos, formación única capa de conexión de lateral, clasificado por softmax o sigmoide.

    4, bidireccional Encoder Representaciones de Transformers (BERT)

    GPT tiene un defecto, sólo es dependiente de la codificación de la información anterior, la siguiente información no es miembro, entonces BERT buena solución a este problema. hecho BERT la porción de codificador transformador, a raíz de la figura.

    

    Hay dos maneras de entrenar BERT, enmascarado y LM Frase siguiente predicción, enmascarado LM ocultar al azar algunas palabras, permiten BERT cubierto adivinar qué palabra. Frase siguiente Predicción BERT es inferir dos frases no es un contexto.

    BERT plenamente en cuenta el contexto de la palabra se codifica, por lo que buena indicación de la relación entre semántica y contexto, muy por delante en muchos juegos.

IV Resumen

    Procesamiento del Lenguaje Natural de Boole del modelo original, el modelo de espacio vectorial, y luego word2vec, a continuación, Elmo y, a continuación, a GPT, y luego BERT, a lo largo del camino, y la tecnología de sustitución. Hasta el momento, el BERT todavía relativamente líder palabra método de incrustación, en la mayoría de las tareas de procesamiento del lenguaje natural, como una misión de pre-entrenamiento, lo primero que debe tratar de enfoque. Tal vez, en poco tiempo, habrá nuevas tecnologías salen, nuevos registros, vamos a ver. Pero incluso ahora, la máquina realmente entender el lenguaje humano, esto es una cuestión aún no se ha demostrado. El camino es largo Ven, la felicidad y la tierra.

aprendizaje adjunta Java / C / C ++ / máquina / Algoritmos y Estructuras de Datos / front-end / Android / Python / programador de lectura / libros individuales libros Daquan:

(Haga clic en la derecha para abrir allí en el blog personal en seco): seca Técnica de floración
===== >> ① [Java Daniel lo lleve en el camino a avanzado] << ====
===== >> ② [+ acm algoritmo de estructura de datos Daniel lo lleve en el camino a avanzado] << ===
===== >> ③ [base de datos de Daniel lo lleve en el camino a avanzado] << == ===
===== >> ④ [Daniel cliente web para llevarlo en el camino a avanzado] << ====
===== >> ⑤ [pitón máquina de aprendizaje y Daniel le llevará a la entrada camino avanzada] << ====
===== >> ⑥ [arquitecto Daniel lo lleve en el camino a avanzado] << =====
===== >> ⑦ [C ++ Daniel avanzó para llevarlo en el camino] << ====
===== >> ⑧ [ios Daniel lo lleve en el camino a avanzado] << ====
=====> > ⑨ [seguridad web Daniel lo lleve en el camino a avanzado] << =====
===== >> ⑩ [sistema operativo Linux y Daniel se toman en el camino a avanzado] << = ====

No hay frutas consumidas, espero que jóvenes amigos, amigos desea aprender técnicas, superando todos los obstáculos en el camino de la carretera determinada para atar en la tecnología, entender el libro, y luego golpear en el código, entender el principio, e ir a la práctica, se se le dan vida, su trabajo, su futuro un sueño.

Publicado 47 artículos originales · ganado elogios 0 · Vistas 295

Supongo que te gusta

Origin blog.csdn.net/weixin_41663412/article/details/104841985
Recomendado
Clasificación