PNL (Procesamiento del Lenguaje Natural)

 1. ¿Qué es la PNL?

El procesamiento del lenguaje natural (Procesamiento del lenguaje natural, PNL) es una dirección importante en el campo de la informática y la inteligencia artificial . Estudia varias teorías y métodos que pueden lograr una comunicación efectiva entre humanos y computadoras utilizando el lenguaje natural. El procesamiento del lenguaje natural es una ciencia que combina la lingüística , la informática y las matemáticas . La investigación en este campo implicará, por tanto, el lenguaje natural , el lenguaje que las personas utilizan a diario , por lo que está muy relacionado con el estudio de la lingüística , pero tiene diferencias importantes. El procesamiento del lenguaje natural no es el estudio general del lenguaje natural, sino el desarrollo de sistemas informáticos que puedan realizar eficazmente la comunicación en lenguaje natural , especialmente los sistemas de software . Como tal, es parte de la informática.

El procesamiento del lenguaje natural, es decir, lograr la comunicación del lenguaje natural entre humanos y computadoras, o lograr la comprensión del lenguaje natural y la generación del lenguaje natural, es muy difícil. La causa fundamental de la dificultad es la gran variedad de ambigüedades o ambigüedades que existen en todos los niveles de los textos y diálogos en lenguaje natural.

Existe una relación de muchos a muchos entre las formas (cadenas) del lenguaje natural y sus significados. De hecho, éste es exactamente el encanto del lenguaje natural. Pero desde la perspectiva del procesamiento informático, tenemos que eliminar la ambigüedad, y se ha argumentado que este es el problema central en la comprensión del lenguaje natural, es decir, convertir entradas de lenguaje natural potencialmente ambiguas en alguna representación interna inequívoca de la computadora.

La existencia generalizada de ambigüedades requiere de mucho conocimiento y razonamiento para eliminarlas, lo que trae grandes dificultades a los métodos basados ​​en la lingüística y el conocimiento, por lo que se viene realizando la investigación sobre el procesamiento del lenguaje natural, que toma estos métodos como corriente principal. durante décadas Por un lado, se han logrado muchos logros en teoría y método, pero en el desarrollo de un sistema que pueda manejar textos reales a gran escala, los logros no son notables. La mayoría de los sistemas desarrollados son sistemas de demostración de investigación a pequeña escala.

Actualmente existen dos problemas: por un lado, la gramática hasta ahora se limita al análisis de una frase aislada y todavía falta una investigación sistemática sobre las limitaciones e influencias del contexto y del entorno de conversación sobre esta frase. Aún no existen reglas claras a seguir, como los diferentes significados de una misma frase en diferentes ocasiones o por diferentes personas, y es necesario fortalecer el estudio de la pragmática para ir solucionándolo paulatinamente. Por otro lado, las personas entienden una oración no sólo por la gramática, sino también por el uso de una gran cantidad de conocimientos relevantes, incluidos conocimientos de la vida y conocimientos profesionales, que no se pueden almacenar en la computadora. Por lo tanto, un sistema de comprensión escrita sólo puede establecerse dentro de una gama limitada de vocabulario, patrones de oraciones y temas específicos; sólo cuando la capacidad de almacenamiento y la velocidad de funcionamiento de la computadora mejoren considerablemente será posible ampliar adecuadamente el alcance.

Los problemas anteriores se han convertido en las principales dificultades en la aplicación de la comprensión del lenguaje natural en la traducción automática, que es una de las razones por las que la calidad de la traducción de los sistemas de traducción automática actuales aún está lejos del objetivo ideal; y la calidad de la traducción es la clave para El éxito de los sistemas de traducción automática . El profesor Zhou Haizhong , matemático y lingüista chino, señaló una vez en el artículo clásico "Cincuenta años de traducción automática": Para mejorar la calidad de la traducción automática, lo primero que hay que resolver es el lenguaje en sí, en lugar del problema de programación ; hacer un El sistema de traducción automática definitivamente no podrá mejorar la calidad de la traducción automática; además, cuando los humanos aún no han comprendido cómo el cerebro realiza el reconocimiento confuso y el juicio lógico del lenguaje, es imposible que la traducción automática alcance el nivel de "credibilidad". , expresividad y elegancia". posible.

2. Categoría PNL

1. Minería de texto: incluye principalmente clasificación de texto, agrupación, extracción de información, resumen, análisis de sentimientos, visualización de información y conocimiento extraídos y una interfaz de presentación interactiva, lo que se denomina colectivamente tareas de minería de texto.

2. Recuperación de información: indexar documentos de gran tamaño. Simplemente puede asignar diferentes pesos a las palabras del documento para crear un índice, o puede utilizar un algoritmo para crear un índice más profundo. Al realizar una consulta, primero analice la entrada, luego busque documentos candidatos coincidentes en el índice, luego clasifique los documentos candidatos de acuerdo con un mecanismo de clasificación y finalmente genere el documento con la puntuación más alta.

3. Análisis sintáctico y semántico: realice diversos análisis sintácticos en la oración objetivo, como segmentación de palabras, etiquetado de partes del discurso, reconocimiento de entidades nombradas y análisis sintáctico, reconocimiento de roles semánticos y desambiguación de palabras polisémicas, etc.

4. Traducción automática: con el rápido desarrollo de la tecnología de la comunicación y la tecnología de Internet, el rápido aumento de la información y la conexión internacional más estrecha, el desafío de permitir que todas las personas en el mundo obtengan información a través de las barreras del idioma ha excedido las capacidades de la traducción humana.

Debido a su alta eficiencia y bajo costo, la traducción automática satisface las necesidades de traducción rápida de información multilingüe en países de todo el mundo, desde el primer método basado en reglas hasta el método estadístico de hace 20 años, hasta el aprendizaje profundo (códec) actual. Método basado en , y gradualmente formó un sistema de método más riguroso. La traducción automática es una rama del procesamiento de información del lenguaje natural, que puede generar automáticamente otro lenguaje natural a partir de un lenguaje natural. En la actualidad, las plataformas de traducción lanzadas por gigantes de la industria de la inteligencia artificial como Google Translate, Baidu Translate y Sogou Translate han ido ocupando gradualmente una posición dominante en la industria de la traducción en virtud de la eficiencia y precisión de su proceso de traducción.

5. Sistema de respuesta a preguntas: con el rápido desarrollo de Internet, la cantidad de información de la red está aumentando y las personas necesitan obtener información más precisa. La tecnología de los motores de búsqueda tradicionales ya no puede satisfacer las necesidades cada vez más elevadas de las personas, y la tecnología de respuesta automática a preguntas se ha convertido en un medio eficaz para resolver este problema.

La respuesta automática a preguntas se refiere a la tarea de utilizar computadoras para responder automáticamente las preguntas planteadas por los usuarios para satisfacer las necesidades de conocimiento de los usuarios. Al responder las preguntas de los usuarios, primero debemos comprender correctamente las preguntas planteadas por los usuarios, extraer información clave y utilizarlas en el corpus o conocimiento existente, recuperar y comparar en la biblioteca, y retroalimentar las respuestas obtenidas al usuario.

6. Sistema de diálogo: el sistema chatea, responde y completa una determinada tarea con los usuarios a través de diálogos de múltiples rondas, que involucran principalmente tecnologías como el reconocimiento de la intención del usuario, el motor de chat general, el motor de preguntas y respuestas y el sistema de gestión de diálogo. Además, para que sea contextualmente relevante, es necesario tener la capacidad de tener múltiples rondas de diálogo. Al mismo tiempo, para lograr la personalización, el sistema de diálogo también necesita dar respuestas personalizadas basadas en los retratos de los usuarios.

En general, el procesamiento del lenguaje natural tiene dos tareas principales: comprensión del lenguaje natural (NLU) y generación de lenguaje natural (NLG). Comprender el lenguaje es algo natural para los humanos, pero es muy difícil para las máquinas. La solidez del lenguaje es la principal dificultad que conduce a la comprensión del lenguaje natural, incluyendo: diversidad lingüística, ambigüedad, dependencia del conocimiento, relación contextual, etc. Estas dificultades también traerán una serie de dificultades en el procesamiento real: si la estructura gramatical de la oración generada, si la expresión semántica es precisa, si la información se repite, etc.

Para resolver los problemas anteriores, surgieron algunas direcciones básicas de procesamiento del lenguaje natural, que incluyen: segmentación de palabras, etiquetado de partes del discurso, lematización, análisis de dependencia, reconocimiento de entidades nombradas, etiquetado de secuencias, reconocimiento de relaciones de oraciones, etc.

Además, el procesamiento del lenguaje natural también incluye muchas aplicaciones específicas, como: recuperación de información, extracción de información, clasificación y agrupamiento de texto, traducción automática, generación de resúmenes, robots de chat, etc. Implica minería de datos, aprendizaje automático, investigación lingüística relacionada con el procesamiento del lenguaje y aprendizaje profundo, que se ha vuelto muy popular en los últimos años.

3. Características de la PNL

Definición efectiva de contenido.

El vocabulario entre oraciones en la vida diaria generalmente no existe de forma aislada. Todas las palabras del discurso deben estar relacionadas entre sí para expresar el significado correspondiente. Una vez que se forma una oración específica, se formará la relación de definición correspondiente entre las palabras. . Si no existe una definición efectiva, el contenido se volverá ambiguo y no podrá entenderse efectivamente. Por ejemplo, salía tranquilamente a jugar con su madre y su hermana a sus espaldas. Si la preposición "y" no está definida en esta oración, es fácil formar que la madre y la hermana no saben que él va a salir a jugar, o que la madre no sabe que él va a salir a jugar con su hermana.

Desambiguación y ambigüedad

El uso de palabras y oraciones en diferentes situaciones a menudo tiene múltiples significados y es fácil producir conceptos vagos o ideas diferentes. Por ejemplo, la palabra "altas montañas y agua corriente" tiene múltiples significados, que pueden representar tanto el entorno natural como la relación entre los dos Incluso describe la belleza de la música, por lo que el procesamiento del lenguaje natural debe definirse de acuerdo con el contenido antes y después, para eliminar la ambigüedad y la ambigüedad, y expresar el verdadero significado. 

Entrada defectuosa o irregular

Por ejemplo, encontrar acentos extranjeros o acentos locales en el procesamiento del habla, o lidiar con errores de ortografía, gramática o reconocimiento óptico de caracteres (OCR) en el procesamiento de texto .

Comportamiento verbal y planificación

Las oraciones a menudo no significan simplemente lo que significan literalmente; por ejemplo, "¿Puedes pasar la sal?" una buena respuesta sería pasar la sal; en la mayoría de los contextos, "puedes" sería una mala respuesta, aunque responder "no " o "demasiado lejos para que yo pueda alcanzarlo" también es aceptable. Además, si un curso no se ofreció el año anterior, es mejor responder "Este curso no se ofreció el año pasado" a la pregunta "¿Cuántos estudiantes reprobaron este curso el año pasado?" que responder "Nadie reprobó este curso". ".

Supongo que te gusta

Origin blog.csdn.net/shshwhvs/article/details/126608887
Recomendado
Clasificación