¡Panorama! En los últimos 20 años, el desarrollo del campo del procesamiento del lenguaje natural

imagen

Autor original de Xi Xiaoyao Technology Talk
| Xiaoxi, Python

En los últimos años, todo el mundo ha experimentado el gran desarrollo en el campo de la PNL (escriba el nombre completo, Procesamiento del lenguaje natural), desde Word2Vec hasta el uso extensivo de RNN y LSTM, desde seq2seq hasta Atención, Transformador, Bert, hasta ahora Gran modelo GPT -4 . Como herramienta central para comprender, generar y procesar el lenguaje natural, que es una herramienta central para la vida humana y la comunicación, y un importante portador para compartir información, los lingüistas computacionales comenzaron a prestar atención al uso de "máquinas" para interactuar con la naturaleza desde el principio. perspectiva de la "computación" ya en la década de 1950. se procesa el lenguaje. Con la madurez gradual de varias tecnologías, el campo de la PNL está en auge. Tomando ACL como ejemplo, se han publicado más de 80,000 artículos desde 1952 :

imagen

Con el aumento de publicaciones, el campo de la PNL también se ha convertido en una disciplina a gran escala con múltiples ramas y subdisciplinas. En el pasado, puede haber muchos artículos y reseñas que resumen la historia de la PNL y ordenan el desarrollo de PNL. , pero desafortunadamente existen muy pocos estudios que brinden una visión general del campo ampliamente difundido de la PNL desde una perspectiva espacial.

El documento presentado hoy por la Universidad Técnica de Munich en Alemania ha llevado a cabo una clasificación y revisión detallada y sistemática del campo de investigación de la PNL en los últimos 20 años, ayudando a todos a pararse en la perspectiva de Dios y ver el panorama de 360 ​​grados de la PNL . El autor espera que a través de dicho trabajo, pueda ayudar a los académicos, profesionales, profesionales y principiantes en cualquier campo de la PNL a identificar las tendencias de investigación de la PNL, ayudar a la comunidad investigadora a llenar los vacíos existentes y explorar mejor varias investigaciones en el campo de la PNL.

Título de la tesis:
Explorando el panorama de la investigación del procesamiento del lenguaje natural

Enlace en papel:
https://arxiv.org/pdf/2307.10652.pdf

Portal de investigación de capacidad GPT-4 (avanzado/continuar visitando en caso de advertencia del navegador):

https://gpt4test.com

1. ¿Cuáles son los subcampos de la PNL?

Si desea hablar sobre los subcampos de la PNL, puede pensar en muchos, desde la traducción automática hasta el análisis de sentimientos, desde la recuperación de información hasta la generación de texto, pero puede que no sea necesario brindar una descripción completa de la taxonomía en el campo de la PNL con un sistema estructurado No es un trabajo tan fácil.

El autor del artículo se refiere a los temas de presentación enumerados en los principales sitios web de conferencias en el campo de la PNL, como ACL, EMNLP, COLING e IJCNLP en los últimos años, así como los temas de los seminarios incluidos en ACL Anthology y la investigación. campos de 828 artículos en EMNLP 2022, construyó la primera versión de la taxonomía de dominio de PNL y, al mismo tiempo, para construir todos los aspectos del campo de investigación de PNL de la manera más completa y completa posible, el autor realizó más de 20 uno- entrevistas personales con expertos en diferentes campos de la PNL De acuerdo con los resultados de la entrevista y la primera versión de la clasificación La revisión y mejora del campo de investigación de la PNL, el autor construyó una taxonomía de los campos de investigación de la PNL como se muestra en la siguiente figura :

imagen

Se puede ver que el autor divide la PNL en 12 campos principales, que incluyen multimodalidad, interfaces de lenguaje natural, procesamiento de texto semántico, análisis de sentimientos y análisis sintáctico (procesamiento de texto sintáctico), lingüística y PNL cognitiva en PNL, PNL responsable y confiable, razonamiento , multilingüismo, recuperación de información, extracción de información y minería de texto (Information Extraction & Text Mining), generación de texto (Text Generation) .

A través de este conjunto de métodos de clasificación, el autor utilizó un método de etiquetado semimanual y semiautomático para construir un conjunto de entrenamiento que contenía 178 521 etiquetas de campo de papel y entrenó a un clasificador de campo de papel supervisado débilmente. los artículos incluidos en ACL Anthology de 2022 a 2022 se incluyeron en el análisis final.

2. ¿Cuál es el contexto de desarrollo del campo de investigación de la PNL?

Aunque los primeros artículos de PNL aparecieron en 1952, la cantidad de artículos comenzó a crecer lentamente hasta el año 2000. De 2000 a 2017, la cantidad de investigaciones de PNL se cuadriplicó y, en los siguientes cinco años, las investigaciones de PNL se duplicaron nuevamente, lo que indica que El campo de la PNL se ha disparado en los últimos cinco años y, de acuerdo con el conjunto de taxonomías de campo construido por el autor, el autor estudia el desarrollo y los cambios de los campos de investigación más populares (Fos) en la PNL:

imagen

Se puede ver que la traducción automática y el modelo de lenguaje son los campos de investigación más populares en la literatura de PNL , pero el desarrollo y los cambios de estos dos campos son muy diferentes. La traducción automática es una investigación profunda y se ha establecido durante muchos años. Investigación papers, el número de publicaciones y la tasa de crecimiento son relativamente estables, y aunque el modelo lingüístico se ha estudiado durante mucho tiempo, el número de publicaciones no comenzó a aumentar significativamente hasta 2018. Situaciones similares también se pueden ver al enfocarse en otros Campos de PNL El aprendizaje de representación y la clasificación de textos, aunque ampliamente estudiados, no han visto cambios significativos en la tasa de crecimiento, mientras que los sistemas de diálogo y la PNL de bajos recursos han alcanzado recientemente tasas de crecimiento muy altas.

imagen

En todo el campo de investigación de la PNL, también ha aparecido la clásica regla 28. El nivel de investigación de la mayoría de los campos de la PNL es significativamente más bajo que el de estos campos más populares de la PNL. Parece que el desarrollo de la investigación de la PNL proviene principalmente de campos populares y aplicaciones. impulsada, pero en general, la investigación en todas las áreas de la PNL mantiene un crecimiento positivo .

3. ¿Cuál es el futuro de la investigación en PNL?

El llamado conocimiento del pasado puede aprender del presente, de acuerdo con la investigación y el desarrollo de todo el campo de la PNL, el autor explora las tendencias de investigación en varios campos de la PNL y explora la dirección de desarrollo futuro del campo de la PNL:

imagen

Primero, el autor usó un método de matriz para dibujar la matriz de número de artículos-tasa de crecimiento de cada FoS relacionado con NLP de 2018 a 2022. Los campos de investigación con altas tasas de crecimiento y una gran cantidad de artículos en general pertenecen a los productos "estrella" en PNL, se puede ver que los campos que ocupan el centro del escenario de la PNL incluyen modelos de lenguaje, PNL interpretable, PNL de bajos recursos, etc., mientras que la traducción automática similar, la clasificación de textos y el aprendizaje de representaciones se han convertido en PNL debido a su alto número artículos y baja tasa de crecimiento. La base de la investigación es que también hay algunos campos de investigación que mantienen una alta tasa de crecimiento y un bajo número de artículos, como la recuperación de párrafos, la conversión de estilos, la generación de código, etc. se vuelven populares, no se pueden identificar claramente debido a la pequeña cantidad de artículos El juicio de la tendencia de desarrollo adicional.

imagen

Utilizando la teoría de la difusión de la innovación, el autor dibuja el diagrama del ciclo de vida de la innovación en el campo de la investigación de la PNL, como se muestra en la figura anterior. De la figura anterior, se puede ver que el campo del análisis semántico básicamente ha entrado en el ocaso, acercándose al período de declive del ciclo de vida de la innovación, mientras que la traducción automática, aunque tanto el aprendizaje de representación como el análisis de texto son relativamente populares, han pasado el punto de inflexión del ciclo de vida de la innovación desde la madurez hasta el declive, y su velocidad de desarrollo actualmente se está desacelerando. Los campos de la PNL interpretable, multimodelo e interacción del lenguaje natural se encuentran en un período de rápido desarrollo, y es probable que comience a acelerarse en futuras investigaciones. Como producto estrella, la PNL verde está en su mejor momento y puede marcar el comienzo el futuro estallar .

Resumen y Discusión

Aunque parece que muchos problemas de la PNL se han resuelto de la noche a la mañana con la aparición de grandes modelos, este artículo es muy oportuno para señalar que a medida que la PNL utiliza más y más modelos, la cantidad de parámetros del modelo se acerca a cifras astronómicas, y los consiguientes Los problemas de costos computacionales, los problemas ambientales y los problemas éticos pueden convertirse en la corriente principal de la investigación de la PNL en el futuro .

Con el rápido desarrollo de un campo, es bastante difícil tener una comprensión integral de un campo desde una perspectiva macro, y este trabajo que presenta una descripción general estructurada del campo a través de la recopilación, clasificación y juicio puede ser más útil para nosotros. ¡Sería muy útil tener una comprensión clara del campo en el que nos encontramos!

 

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/132140279
Recomendado
Clasificación