Tareas abiertas, conjuntos de datos y mejores resultados actuales relacionados con el procesamiento del lenguaje natural chino

Recomiendo encarecidamente un proyecto: Chinese NLP, que es creado y mantenido por el equipo de procesamiento del lenguaje natural del Laboratorio de Inteligencia Artificial Didi . Este proyecto ha resuelto cuidadosamente las tareas relacionadas con el procesamiento del lenguaje natural chino, conjuntos de datos y mejores resultados actuales. Bastante completo.


Página de inicio del proyecto: https://chinesenlp.xyz

Github: https://github.com/didi/ChineseNLP


Este proyecto contiene actualmente 18 tareas de procesamiento del lenguaje natural chino, así como otra categoría:


imagen


Debajo de cada subtarea, se presentarán en detalle los antecedentes de la tarea relacionada, los ejemplos, los indicadores de evaluación, los conjuntos de datos relacionados y los mejores resultados actuales. Tomando como ejemplo la segmentación de palabras chinas, además del conjunto de datos backoff2005 con el que estamos familiarizados, existen otras fuentes de datos:


imagen


Veamos nuevamente la tarea de traducción automática. Acerca del índice de evaluación, la descripción es bastante detallada:


  • Evaluación directa (evaluación manual). Un anotador en Amazon Mechnical Turk verá una traducción generada por el sistema y una traducción humana, y luego responderá a la pregunta: "¿Con qué precisión la traducción del sistema expresa el significado de la traducción humana? "

  • Puntuación azul ( Papineni et al 02  ).

    • Sensible a mayúsculas y minúsculas vs.

    • Condición de activación de penalización por brevedad: cuando el resultado de la traducción automática es más corto que la traducción de referencia más corta (referencia) o más corto que la traducción de referencia más cercana (referencia).

    • penalización por brevedad: un coeficiente que se utiliza para penalizar los resultados de traducción automática cuya longitud es más corta que la traducción de referencia.

    • El proceso de cálculo estándar de Bleu primero simbolizará los resultados de la traducción de referencia y la traducción automática.

    • Si el chino es el idioma de destino, utilice el nivel de caracteres  {1, 2, 3, 4} concordancia de gramos.

    • Utilice Bleu-n4r1 para evaluar cuándo solo hay una traducción de traducción de referencia humana.

    • Bleu-n4r4:  nivel de palabra  {1,2,3,4}-coincidencia de gramo, en comparación con 4 traducciones de referencia humana

    • Hay muchas variantes importantes del Bleu estándar:

  • NIST: una variante de Bleu que da mayor peso a los n-gramos raros.

  • TER (tasa de edición de traducción): edita la distancia entre la traducción por computadora y la traducción de referencia humana.

  • BLEU-SBP ((Chiang et al 08) [ http://aclweb.org/anthology/D08-1064]  ). Resolvió la descomponibilidad de Bleu y logró un compromiso entre Bleu y la tasa de error de palabras.

  • HTER. El número de ediciones necesarias para una buena traducción (el número de ediciones).


En términos de recursos de corpus relacionados con la traducción automática, también incluye el conocido corpus de las Naciones Unidas y AI Challenger:


imagen


Los estudiantes que estén interesados ​​en otras tareas relacionadas pueden consultarlo por sí mismos. Este es un buen punto de referencia para comprender las tareas actuales relacionadas con la PNL china. Gracias a los estudiantes que crearon y mantuvieron este proyecto.


Haga clic para leer el texto original e ir directamente a la página de inicio del proyecto.


imagen


Supongo que te gusta

Origin blog.51cto.com/15060464/2678646
Recomendado
Clasificación