Introducción al procesamiento del lenguaje natural de PNL

1. ¿Qué es la PNL?

NLP (Procesamiento del lenguaje natural, Procesamiento del lenguaje natural) es una dirección importante en el campo de la informática y la inteligencia artificial. Estudia varias teorías y métodos que pueden lograr una comunicación efectiva entre humanos y computadoras usando lenguaje natural (extraído de la Enciclopedia Baidu ).

Los diferentes idiomas no pueden comunicarse directamente. Por ejemplo, los humanos no pueden entender los ladridos de los perros, e incluso los humanos de diferentes idiomas no pueden comunicarse directamente. Necesitan traducción para comprender sus respectivos significados.

Para los humanos y las computadoras, la PNL es un puente entre el lenguaje de máquina y el lenguaje humano para lograr el propósito de la comunicación entre humanos y computadoras.

 La PNL consta de las siguientes dos partes:

  • NLU (comprensión del lenguaje natural, comprensión del lenguaje natural)
  • NLG (Generación de lenguaje natural, generación de lenguaje natural)

2. Comprensión del lenguaje natural NLU

NLU (comprensión del lenguaje natural) es un término general para todos los modelos de métodos o tareas que respaldan la comprensión automática del contenido del texto, incluida la segmentación de palabras, el etiquetado de partes del discurso, el análisis sintáctico, la clasificación/agrupación de textos, la extracción/resumen automático de información y otras tareas. En pocas palabras, se espera que las computadoras puedan tener capacidades normales de comprensión del lenguaje como los humanos.

Pongamos un ejemplo de “reservar un billete de avión”: podemos expresarlo de muchas formas

  • ¿Hay un vuelo a Shanghái?
  • Reserve un boleto de avión a Shanghái y salga el próximo martes.
  • Estaré en un viaje de negocios a Shanghái el próximo martes, verifique el boleto aéreo por mí.
  • Quiero tomar el avión más cercano a Shanghai.
  • ……

Se puede decir que existen infinitas expresiones en el lenguaje natural para "reservar un boleto de avión", y esto es un gran desafío para las computadoras. Antes de que se introdujera la inteligencia artificial, las computadoras solo podían identificar la intención en función de las reglas. Por ejemplo, si se utiliza como palabra clave "reserva de billetes de avión", si no existe dicha palabra clave en el texto, no será posible identificar con precisión la intención del usuario. O siempre que haya palabras clave, como "Quiero cancelar el billete de avión", también se procesará como el usuario quiere reservar un billete de avión.

El propósito de la comprensión del lenguaje natural es identificar con precisión la intención del usuario.

La comprensión del lenguaje natural es similar al historial de desarrollo de toda la inteligencia artificial y ha pasado por 3 iteraciones:

  1.  Método basado en reglas: juzgar la intención del lenguaje natural resumiendo las reglas. Los métodos comunes incluyen: CFG ( gramática relacionada con el contexto ), JSGF (formato de gramática JSpeech), etc.
  2. Métodos basados ​​en estadísticas: realice estadísticas y análisis sobre la información del idioma y extraiga características semánticas de ellos. Los métodos comunes incluyen: SVM (Máquina de vectores de soporte), HMM (Modelo de Markov oculto), MEMM (Modelo de Markov de máxima entropía), CRF (Campo aleatorio condicional), etc.
  3. Métodos basados ​​en deep learning: CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory Network), Transformer , etc.

3. Generación de lenguaje natural NLG

NLG (Generación de lenguaje natural) es un proceso de software que convierte automáticamente datos estructurados en texto legible por humanos.

6 pasos para NLG

Paso 1: Determinación de contenido - Determinación de contenido

Como primer paso, el sistema NLG debe decidir qué información debe incluirse en el texto que se está construyendo y qué información no debe incluirse. A menudo, los datos contienen más información de la que finalmente se transmite.

Paso 2: Estructuración de texto – Estructuración de texto

Después de determinar qué información debe transmitirse, el sistema NLG debe organizar el orden del texto de manera razonable. Por ejemplo, al informar sobre un partido de baloncesto, dará prioridad a expresar "cuándo", "dónde" y "cuáles 2 equipos", luego expresará "la situación general del juego", y finalmente expresará "el final del juego".

Paso 3: Agregación de oraciones – Agregación de oraciones

No es necesario expresar cada pieza de información en una oración independiente. Puede ser más fluido y más fácil de leer si se combinan varias piezas de información en una sola oración.

Paso 4: Gramaticalización – Lexicalización

Cuando se determina el contenido de cada oración, la información se puede organizar en lenguaje natural. Este paso agregará algunas palabras de enlace entre información diversa, que parece más una oración completa.

Paso 5: Generación de expresiones de referencia – Generación de expresiones de referencia|REG

Este paso es muy similar a la gramaticalización, donde se seleccionan palabras y frases para formar una oración completa. Sin embargo, la diferencia esencial entre él y la gramaticalización es que "REG necesita identificar el dominio del contenido y luego usar el vocabulario de este dominio (en lugar de otros dominios)".

Paso 6: Realización del lenguaje – Realización lingüística

Finalmente, cuando se han identificado todas las palabras y frases relevantes, deben combinarse para formar una oración completa bien estructurada.

No importa cómo se aplique NLG, la mayoría de ellos tienen los siguientes tres propósitos:

  1. Capaz de generar contenido personalizado a escala
  2. Ayudar a los humanos a obtener información sobre los datos y hacer que los datos sean más fáciles de entender
  3. Acelere la producción de contenido

4. Tres niveles de análisis en el procesamiento de NLP

El primer nivel: análisis léxico

El análisis léxico incluye la segmentación de palabras chinas y el etiquetado de partes del discurso.

  • Segmentación de palabras: divide el texto de entrada en palabras individuales
  • Etiquetado de partes del discurso: asigne una categoría a cada palabra. Las clases pueden ser sustantivos, verbos, adjetivos, etc.; las palabras que pertenecen a la misma parte del discurso asumen roles similares en la sintaxis.

El segundo nivel: análisis sintáctico

El análisis sintáctico es el proceso de analizar el texto de entrada en unidades de oraciones para obtener la estructura sintáctica de la oración.

Tres métodos principales de análisis sintáctico:

  • Sistema de sintaxis de estructura de frase, que se utiliza para identificar la estructura de frase en una oración y la relación sintáctica jerárquica entre frases (entre análisis de dependencia y análisis de gramática profunda)
  • Sistema de sintaxis de estructura de dependencia (perteneciente al análisis sintáctico superficial), la función es identificar la interdependencia entre palabras en oraciones; el proceso de implementación es relativamente simple y adecuado para su aplicación en entornos multilingües, pero la información que puede proporcionar es relativamente pequeña
  • Análisis profundo de gramática y sintaxis, utilizando la gramática profunda para realizar un análisis profundo sintáctico y semántico de las oraciones. Por ejemplo, la gramática de adyacencia de árbol léxico, la gramática de categorías combinadas, etc. son todas gramáticas profundas; el análisis de sintaxis de gramática profunda puede proporcionar información sintáctica y semántica rica; la gramática profunda es relativamente compleja y la complejidad operativa del analizador es relativamente alta, lo que no es adecuado para procesar datos a gran escala.

El tercer nivel: análisis semántico

El objetivo final del análisis semántico es comprender la verdadera semántica expresada por oraciones. La representación semántica aún no ha tenido una solución unificada.

1. El etiquetado de roles semánticos (etiquetado de roles semánticos) es una tecnología de análisis semántico superficial relativamente madura.
El etiquetado de roles semánticos generalmente se realiza sobre la base del análisis sintáctico, y la estructura sintáctica es crucial para el desempeño del etiquetado de roles semánticos. Por lo general, se utiliza la cascada para entrenar el modelo módulo por módulo.

  • Participio
  • etiquetado de parte del discurso
  • Análisis de sintaxis
  • Análisis Semántico

2. El modelo conjunto (un método recientemente desarrollado) aprende y decodifica conjuntamente múltiples tareas. El modelo conjunto generalmente puede mejorar significativamente la calidad del análisis, pero el modelo conjunto es más complejo y más lento.

  • combinación de parte del discurso
  • combinación de parte del discurso
  • combinación sintáctica de parte del discurso
  • combinación sintaxis-semántica, etc.

5. Documentos de referencia

Comprenda el procesamiento de lenguaje natural NLP en un artículo (4 aplicaciones + 5 dificultades + 6 pasos de implementación)

Comprenda la generación de lenguaje natural en un artículo - NLG (6 pasos de implementación + 3 aplicaciones típicas) - Biblioteca de aprendizaje de inteligencia artificial del gerente de producto

Introducción a la Inteligencia Artificial (9) - Procesamiento del lenguaje natural (Natural Language Processing)_Blog de hustlei-CSDN Blog_Inteligencia artificial Procesamiento del lenguaje natural

Supongo que te gusta

Origin blog.csdn.net/qq_37771475/article/details/126765564
Recomendado
Clasificación