¿Cómo producir un "papel de prueba" calificado para el modelo de PNL?

1. Antecedentes



Si una tarea de PNL es un examen, y el modelo de PNL es un examinado, no solo debemos preocuparnos por los resultados del examen final. También debemos preocuparnos por qué puntos de conocimiento del examinado son insuficientes. Solo de esta manera podremos para fortalecer el conocimiento insuficiente de una manera focalizada Puntos para mejorar los puntajes de las pruebas. En este examen, el conjunto de datos de la prueba es equivalente a una prueba. Entonces, ¿cómo debería salir este papel de prueba? El método comúnmente utilizado es dividir el conjunto de datos en entrenar, validar y probar. Es decir, una parte de las preguntas en un banco de preguntas se usa para aprender, una parte se usa para cuestionarios y la otra parte se usa para examen. Pero esto causará algunos problemas. Por ejemplo, Bert ha logrado muy buenos resultados en una tarea de inferencia (ARCT), que es muy diferente a la de los humanos [1] . Sin embargo, investigadores posteriores descubrieron que la razón por la que Bert logró buenos resultados no fue por su capacidad de razonamiento, sino porque descubrió algunas "habilidades de examen" . Por ejemplo, encuentra que la mayoría de las opciones correctas contienen "no", por lo que solo las opciones con "no" en "Meng" son suficientes. Si se elimina esta "pista", el desempeño de Bert caerá al nivel de adivinar a ciegas. De hecho, cada conjunto de datos está sesgado y puede contener muchas "pistas". Cuando el conjunto de prueba y el conjunto de entrenamiento provienen del mismo conjunto de datos, es probable que el modelo apruebe muchas "habilidades de examen" para lograr buenos resultados. Y cuando solo se utiliza un índice de precisión para la evaluación, es imposible evaluar si el modelo domina el "conocimiento" o las "habilidades de examen". Entonces, algunas personas pueden preguntar, el propósito final del modelo es trabajar en línea, y los datos en línea son como "preguntas reales del examen de ingreso a la universidad". Si puedes obtener buenos resultados en el examen de ingreso a la universidad, ¿por qué debería preocuparte si has dominado el "conocimiento" o las "habilidades de examen"? ¿No está bien usar solo datos en línea para realizar pruebas? De hecho, obtener puntuaciones altas en conjuntos de datos en línea es la última palabra. Sin embargo, los datos en línea no son estáticos y los hábitos de los usuarios pueden cambiar en cualquier momento. Si el modelo es solo una puntuación alta obtenida mediante "técnicas de examen", no podrá adaptarse a este cambio y los resultados serán inestables.







Por lo tanto, un candidato calificado debe usar "conocimientos" para hacer las preguntas, no "habilidades de examen". Un examen calificado también debe poder dejar de lado las "habilidades de examen" y examinar las verdaderas capacidades del modelo. Necesitamos volver a la esencia y explorar los factores que afectan el juicio cuando el modelo completa una tarea. Es decir, qué capacidades de subdivisión necesita el modelo para poder completar bien esta tarea. Cada habilidad de subdivisión es equivalente a un "punto de conocimiento". Necesitamos saber qué tan bien el modelo ha dominado cada "punto de conocimiento", de modo que podamos explicar por qué el resultado final es bueno y por qué no es bueno, y saber qué "puntos de conocimiento" deben fortalecerse. Un conjunto de datos de evaluación que pueda examinar las verdaderas capacidades del modelo debe tener los siguientes tres elementos:


  • No tiene nada que ver con el conjunto de entrenamiento, es un conjunto de datos completamente nuevo.

  • Existe una cobertura relativamente completa de las capacidades de subdivisión necesarias para completar la tarea.

  • Trate de evitar "pistas".


A continuación, se tomará el modelo de similitud semántica como ejemplo para presentar un método para construir un conjunto de datos de evaluación interpretable.


2. Modelo y formación



Primero, entrenamos varios modelos para ser evaluados. Este experimento seleccionó cinco modelos de similitud semántica, a saber , dssm, cnn-dssm, lstm-dssm, arc1 y esim. Los datos de entrenamiento utilizan el conjunto de datos públicos del Instituto de Tecnología de Harbin lcqmc, que se divide en conjunto de entrenamiento, conjunto de verificación y conjunto de prueba según la proporción, con un total de 260.000 pares de texto.
La muestra de datos se muestra en la figura siguiente: los resultados del entrenamiento se muestran en la figura siguiente: (aquí el conjunto de prueba es el conjunto de datos lcqmc) A partir de los resultados de F1 y Acc, el modelo esim funciona mejor, seguido del modelo arc1 y lstm-dssm de nuevo. El modelo dssm F1 es mucho más bajo que otros modelos, pero la acc es ligeramente más alta que el modelo cnn-dssm.




En tercer lugar, la construcción del conjunto de datos de evaluación



Echemos un vistazo a cómo salió este "papel de prueba". Primero, necesitamos explorar los factores que afectan si las dos oraciones significan lo mismo. Lo primero que se puede pensar son las dos categorías de "morfología" y "sintaxis". La morfología se refiere a reemplazar una palabra en el mismo patrón de oración para hacer que la oración tenga el mismo o diferente significado. La sintaxis se refiere a cambiar la posición de las palabras cuando las palabras son iguales, de modo que el significado de la oración sea el mismo o diferente. Además, la información contextual también afectará la semántica de las dos oraciones. Todos los factores están organizados de la siguiente manera: dado que el modelo de contexto y el modelo de similitud semántica discutidos aquí son métodos diferentes, no lo consideraremos aquí. Construimos un conjunto de datos de evaluación basado en una clasificación léxica y sintáctica. El ejemplo es el siguiente, cada categoría tiene 100 pares de texto, un total de 2300 artículos: en la construcción del conjunto de datos, tratamos de asegurar que cada "punto de conocimiento" tiene cambios granulares mínimos. De esta manera, la capacidad de subdivisión del modelo se puede evaluar claramente y, al mismo tiempo, se puede evaluar si el modelo está respondiendo preguntas con "habilidades de examen".





imagen


4. Indicadores y resultados de la evaluación



Primero, según la clasificación de "morfología" y "sintaxis", se extraen dos indicadores de evaluación. El valor F_macro de todo el conjunto de datos de evaluación se utiliza como indicador de "capacidad integral". Los resultados de la evaluación se muestran en la siguiente figura: A juzgar por los resultados anteriores, esim ha logrado los mejores resultados, ya sea la capacidad de discriminar palabras homónimas o la capacidad de análisis de posición de palabras. Las capacidades integrales de cnn-dssm y arc1 son similares, pero sus áreas de especialización son diferentes. cnn-dssm tiene una mayor capacidad para analizar la posición de las palabras, mientras que arc1 tiene una mayor capacidad para discriminar palabras. A continuación, realizaremos un análisis más detallado de "léxico" y "sintaxis". Primero , veamos el léxico: desde la perspectiva del análisis léxico, esim es mejor en general, y su capacidad para discriminar "palabras interrogativas" es mucho mejor que otros modelos, pero la capacidad discriminativa de "predicado" y "objeto" es menor que el modelo arc1. La capacidad discriminativa del "predicado" del modelo arc1 es mucho mejor que la de otros modelos, pero la capacidad discriminativa del "tiempo adverbial" es más débil. El modelo cnn-dssm es estrictamente mejor que el modelo lstm-dssm, y el juicio de "adverbios negativos" es el mejor. Entre todas las partes del habla, el nivel de discriminación general del "cuantificador" es más alto, y es mucho más alto que otras partes de los resultados de discriminación del habla del mismo modelo. Veamos de nuevo la sintaxis. Dado que algunas subdivisiones sintácticas solo contienen "sinónimos", solo tendrán el valor de F1. Para las subdivisiones que contienen "sinónimos" y "significados diferentes", el valor F_macro se calcula por separado. De los resultados del análisis anterior, la fuerza general de cnn-dssm es más prominente. El dssm tiene el peor efecto (debido a que el modelo dssm no registra información de ubicación, la conclusión es consistente con la teoría). Luego, divida el valor de F_macro en F0 y F1. Se puede ver que el modelo tiende a juzgar "sinónimos" y "significados diferentes". Dado que el valor de F1 es generalmente más alto que F0, se puede saber que el modelo es más preciso para juzgar la información de ubicación con la misma semántica, pero esim y arc1 son excepciones para la sustitución del sujeto de ubicación. (Esto se puede utilizar como un juicio de "técnica de prueba", es decir, el modelo se enfrenta a diferentes posiciones y es más probable que se clasifique como "sinónimo")
imagen

imagen









imagen

通过以上指标,我们已经可以对不同模型的细分能力有量化的认识。然而,通过细分召回率矩阵,可以通过可视化的方法,对模型的对比有直观的感受,并且能够发现一些有趣的结论。
imagen
从图中可以看出,cnn-dssm 和 lstm-dssm 对于“同义”和“不同义”的判断倾向性更加明显(红蓝差异很大)。这说明这两个模型有更多的“考试技巧”,即在更多情况下,会将模型判断为“同义”。有趣的是,arc1 的倾向与其他模型不同。


五、总结与展望



本次实验主要提出了一套细粒度的语义相似度模型评测方法,提出了一些细粒度的评价指标,可以使我们更加深入的了解不同模型的特性。在我们较为熟悉的模型上进行试验,实验结果符合预期。
这种根据语言学特性的评测数据集构建方法,可以使我们对于模型有更加立体化的认知,对于模型的细化能力有更深入的了解,这可以为之后的模型优化提供参考方向。
不足之处在于,这种方法虽然可以发现模型的一些“考试技巧” (cnn-dssm 模型对于位置不同的两句话更倾向于分类为“同义”),但并不能够完全消除“线索”。
例如,对于“主语”这个分类,是否有可能具有一些词语,只出现在“同义”的句子当中,使得模型会认为具有这个词语的两个句子都是“同义”呢?面对这种偏差,解决方法是可以尽量保证所有词语均在“同义”和“不同义”中出现,以此来规避这种“线索”。这些经验可以在下一版评测数据集中加以优化。
换一个角度,从算法流程的角度来看,影响语义相似度的还会有其他因素。例如,本次实验所采用的的 jieba 分词,分词的效果如何,对于语义相似度的判断是否有影响?
本次实验文本向量化采用的是 word2vector,那么这种向量化模式对于模型影响如何? 从结果看出,“量词”的判断准确性会高于其他词性,是不是由于 word2vector 向量化的计算方式导致的?这些问题需的解答要后续更多的工作,去构建更完善的评测体系。
还有一个值得探讨的有趣问题。在本次实验里,对于“考试技巧”的判断,还是基于对于数据的直观理解,是否能够提炼出一个衡量“考试技巧”的指标?如何才能公正客观又明确地设计这样一个指标呢?这对于模型质量的判断是一个很有价值的工作,值得深入探究。
Además, este experimento se centra en clasificar el método de evaluación, por lo que en el experimento se selecciona la estructura del algoritmo con una estructura relativamente simple, que es más conveniente para juzgar la viabilidad del método. Más tarde, puede agregar más modelos de similitud para evaluar juntos, agregar mecanismos como transformadores y usar diferentes métodos de vectorización para hacer que las conclusiones de la evaluación sean más completas. Finalmente, compartiré una de las palabras más famosas del profesor de administración Peter Drucker: si no se puede medir, no se puede mejorar. Solo un sistema de evaluación mejor y más científico puede hacer que la IA se vuelva más inteligente y más inteligente. Después de todo, los exámenes son solo un medio y el objetivo es llegar a ser bueno.


Supongo que te gusta

Origin blog.51cto.com/15060467/2678856
Recomendado
Clasificación