Keyword-BERT —— El asesino de la coincidencia semántica en el sistema de respuesta de preguntas

 

Cartilla

Preguntas y respuestas es una forma muy importante de comunicación entre las personas. La clave es: necesitamos entender las preguntas de los demásy dar las respuestas que él quiere . Imagine una escena en la que su novia o esposa le cuenta cariñosamente la noche anterior a Tanabata.

Querida, Tanabata vendrá pronto, ¿puedes darme un teléfono nuevo ?

Y ustedes que son adictos a Kings Canyon en este momento pueden responder sin pensar

Bien querida ~ ayer a luchar sólo para ver un montón de comprar uno consigue uno envío libre nueve nueve - que puede ser más barato para comprar unos pocos oh una cáscara se rompe fácilmente Sí

 

Tu voz no ha caído, una historia viene

(Wang Sledgehammer, Zou, a la edad de 28 años)
Por lo tanto, para tales proposiciones que se pueden ver en todas partes de nuestras vidas, siempre y cuando apreciemos nuestras vidas y tomemos algunos refrigerios, no perderemos puntos fácilmente. Pero para la máquina, este es un gran desafío, porque la incomprensión de la máquina de un texto similar es muy común, por lo que los usuarios bromean sobre nuestra IA como un retraso mental artificial (un término que parece muy falto de inteligencia artificial). Como el hombre detrás de AI, nos hemos comprometido a mejorar la capacidad de AI para sacar la máquina del dilema IQ lo antes posible. Específicamente, para esta escena de preguntas y respuestas , hemos propuesto un nuevo conjunto de metodología y modelos asesinos, para que la IA pueda entenderlo mejor y evitar enviar propuestas ~

Antecedentes

En la vida diaria, a menudo le preguntamos a nuestro asistente de voz (Xiaowei / Siri / Alexa / 小 爱 / 小 度, etc.) una variedad de preguntas, una de las cuales es relativamente rigurosa, y la respuesta devuelta debe ser Preciso, como

"¿Cuál es la altura de la esposa de Yao Ming", "¿En qué año se lanzó la fragancia de arroz de Jay Chou? ¿Qué álbum está incluido?

Llamamos a este tipo de problema de preguntas y respuestas precisas , se puede hacer uso de la tecnología de espectro de conocimientos, problemas de resolución de cada componente (relación de entidad / entidad, etc.), de razonamiento riguroso, y devuelve la respuesta. (También hemos acumulado en la pregunta y la respuesta del atlas, tenemos la oportunidad de compartirlo de nuevo, este artículo no lo muestra primero) También hay un tipo de preguntas, ya sea para pedir una variedad de métodos o respuestas abiertas, como

"Cómo hacer tortilla de arroz", "El nivel de baloncesto de cxk bajo evaluación", "¿Cuánto alcohol puede quemar?"

Para preguntas y respuestas a estas preguntas, que llamaremos de Respuestas de dominio abierto . Este tipo de problema es difícil de analizar los componentes de la oración estrictamente para razonar, o no puede dar respuestas precisas, por lo que generalmente busca problemas similares para salvar al país. El proceso general es el siguiente


En primer lugar, necesitamos mantener una biblioteca de preguntas y respuestas masiva y de alta calidad. Luego, para la pregunta del usuario (Consulta), primero recuperamos más o menos preguntas similares (Preguntas) de la biblioteca de preguntas y respuestas, para estas preguntas candidatas, luego "emparejamiento semántico" adicional para encontrar la pregunta más coincidente, y luego que corresponde a la parte posterior respuesta al usuario, completando así el "dominio abierto de respuestas" podemos ver una áspera recuperado pregunta, que una gran cantidad de ruido, en comparación con nuestra consulta, muchas de las cuales son la forma y Dios no le gusta . Por lo tanto, el módulo más básico es la coincidencia semántica de Consulta-Pregunta , que se utiliza para encontrar una Pregunta similar a Consulta de una pila de preguntas candidatas similares . Una vez desajuste, puede caer en un teléfono móvil y la cáscara del teléfono móvil de peligro, que van desde la rotación, mientras que la muerte de avión AI accidente.

Desafíos y soluciones actuales

Resolver la coincidencia semántica de dominios abiertos no es fácil, y sus desafíos provienen principalmente de los siguientes dos aspectos:

Para el segundo punto, el problema es sensible a la información clave , podemos ver algunos casos. El siguiente caso de Falso positivo parece similar pero no similar, y el modelo lo clasifica erróneamente, mientras que el caso de Fasle Negativo es similar pero no similar, y el modelo también lo clasifica erróneamente.

Las palabras azules en negrita representan la información clave de la coincidencia autopercibida del modelo, y el rojo representa la información clave que realmente debe coincidir, pero el modelo no coincide. Para resolver el problema de la coincidencia semántica de dominio abierto, la academia industrial se puede describir como ocho inmortales, cada uno mostrando su magia . En general, se puede ver como resolver problemas de dos dimensiones de datos y modelo .

Dimensión de datos

Las muestras positivas de datos de entrenamiento (es decir, pares de problemas similares) generalmente se etiquetan manualmente, mientras que las estrategias de generación de muestras negativas (es decir, pares de problemas diferentes) son sutilmente diferentes. La más simple y cruda es el muestreo negativo aleatorio, es decir, para dar un problema, encontrar un problema de una gran cantidad de otros problemas y combinarlo con él para formar una muestra negativa. Pero esta muestra negativa es obviamente tan fácil para el modelo y no puede entrenarlo bien. Así que ir a buscar que sea difícil distinguir las muestras verdaderamente negativos (que llamamos muestra de confusión ), con el fin de mejorar la capacidad del modelo.

Se puede ver que actualmente no existe una estrategia óptima para obtener datos de alta calidad, y se debe agregar más o menos manualmente. En esencia, modelos que se ajustan semánticas dependen mucho de los datos de marcado, que es en realidad un punto de datos del dolor .

Dimensión del modelo

La mejora más conocida es comenzar con el modelo. La academia y la industria tienen un flujo interminable de remodelación de modelos de coincidencia semántica cada año, y de hecho resuelven algunos de los problemas que reclaman. Aquí enumeramos algunos de ellos:

Aunque hay muchos tipos de estos modelos, desde la perspectiva de la estructura del modelo, no hay más de dos categorías: basadas en la representación y basadas en la interacción . El modelo basado en la representación representa en primer lugar la consulta-pregunta por separado, y luego interactúa en el nivel de alto nivel, que es representativo de DSSM y ArcI. El modelo basado en la interacción permite que la consulta-pregunta interactúe entre sí en la parte inferior, que es representativa de Bert, ArcII, MIX . La diferencia entre los diferentes modelos no es más que la diferencia de los módulos internos (RNN, CNN, Transformer ...), nada más que esto en el gran marco.

Este artículo no tiene la intención de discutir los pros y los contras de los dos tipos principales de modelos. En este sentido, la discusión ha sido por mucho tiempo. Nuestro foco está en:

¿Pueden estos modelos realmente resolver los dos desafíos de las preguntas y respuestas de dominio abierto: amplia cobertura e información clave sensible ?

De los resultados de la evaluación de estos modelos, la respuesta es: no .

En cuanto a la explicación más profunda, creo que todavía está limitada por los datos. Los llamados datos determinan el límite superior, y el modelo solo está cerca de la extensión de este límite superior. Si no podemos proporcionar suficientes muestras de entrenamiento para enseñarle al modelo a discernir la información clave , solo confíe en la propia CNN / RNN / Atención del modelo, incluso si podemos hacer todo, puede que no funcione en algunos casos difíciles. En la etapa de predicción, dada la amplia cobertura de los problemas en el dominio abierto, es fácil aparecer pares de problemas que no han aparecido en las muestras de entrenamiento (es decir, problemas fuera de vocabulario, OOV), la información clave en el problema principal (similar / no similar) No han aparecido pares de palabras similares, en este momento el modelo solo puede cegar.

Resumen de puntos de dolor

En resumen, aunque los grandes dioses de la industria y la academia continúan brillando en este campo, aún enfrentamos dos puntos importantes de dolor en el escenario de coincidencia semántica de dominio abierto:

  • Puntos críticos de datos : el modelo se basa en anotaciones de datos de alta calidad

  • Puntos de dolor modelo :

    • El modelo no puede capturar la información clave de muestras difíciles.

    • El modelo no hace nada para OOV como / palabras diferentes

Tao: Metodología

Para resolver estos dos puntos críticos importantes, ya no estamos limitados al nivel técnico, y hacemos algunas pequeñas mejoras en el muestreo y modelado de datos, sino que primero pensamos profundamente en la raíz del problema y proponemos una metodología desde el nivel Tao. Como se muestra a continuación:

Estamos comprometidos con el marco del modelo tradicional de un juego semántico dos mejoras, es la inclusión de un sistema de palabras clave , palabras clave de extracto / frases de un campo abierto masivo y, a continuación, a la muestra de entrenamiento muestras palabra clave / predicción que aparecen, añadiéndose Una llamada. Otro punto es realizar las mejoras correspondientes al modelo para mejorar la captura de esta información clave por parte del modelo. El núcleo de estos dos cambios es introducir explícitamente información clave para datos y modelos, de modo que podamos resolver fundamentalmente los puntos débiles de los datos y modelos que enfrentamos, y ya no se trata solo de rascar el suelo.

¿Por qué esto resuelve el problema? Y escucha la descomposición.

Interpretación

Para facilitar la comprensión de todos, explicaremos nuestro camino uno por uno en combinación con casos específicos.

1. Modelo mejorado: fortalezca el modelo para capturar información clave

Esto es fácil de entender: en nuestro modelo, hemos agregado procesamiento adicional para pares de palabras clave, lo que equivale a agregar características adicionales para proporcionar más información al modelo y fortalecer la capacidad del modelo para distinguir entre pares de problemas. En cuanto a los detalles específicos de mejora, lo mencionaremos en la siguiente sección.

2. Muestras con palabras clave: reduzca la dependencia de los datos etiquetados

Tomemos un ejemplo, que también es una muestra negativa que mencionamos en la parte introductoria: cómo escanear el código más WeChat y cómo escanear el código en el grupo WeChat . La causa raíz de la diferencia de estos dos problemas radica en la diferencia entre los grupos WeChat y WeChat . Pero lo que el modelo aprendió al principio puede ser la diferencia entre los dos verbos de agregar e ingresar (debido a que la integración de los grupos WeChat y WeChat puede estar muy cerca), solo proporcionamos muestras adicionales, como decirle al modelo cómo agregar el grupo Douban y cómo ingresar a Douban Los dos problemas del grupo son similares, el modelo puede aprender que el acceso y la adición no son la clave, y luego aprender la información clave real. Entonces, si marcamos las palabras clave al principio, es equivalente a decirle al modelo que estos son la información clave posible y posible, y el modelo (después de nuestra mejora) aprenderá conscientemente sobre esta parte, sin la necesidad de pasarla usted mismo. Más muestras para distinguir, a fin de resolver fundamentalmente la dependencia de los datos del grupo objetivo. Nuestros resultados también corroboran este punto, publicado por adelantado, la siguiente figura es el modelo tradicional de bert y nuestro modelo modificado de palabra clave-bert, la cantidad de datos necesarios para lograr una precisión similar, la específica que elaboraremos en la siguiente sección .

3. Muestras con palabras clave: información a priori en campo abierto, reduciendo el conjunto de entrenamiento OOV

Todavía damos un ejemplo, cómo escanear el código más el grupo QQ y cómo escanear el código en el grupo WeChat . En la muestra de entrenamiento, el grupo QQ nunca puede aparecer en un par problemático con el grupo WeChat (también conocido como el llamado del OOV), pero si en el momento de la predicción, marcamos el grupo adicional QQ micro-canales y las palabras clave del grupo son equivalentes a dar una información a priori , el modelo (a través de nuestra modificada) capaces a través de su propio módulo de palabras clave, Estudie especialmente las similitudes / diferencias de estas dos palabras para obtener un mejor resultado de clasificación y reducir el impacto negativo de OOV.

Técnica: darse cuenta

Después de que se explica claramente el nivel de Tao, todo es repentinamente brillante y el resto de la implementación es muy natural. Solo hay dos mejoras en nuestro marco tradicional:

  • Cómo construir un sistema de palabras clave ?

  • Cómo mejorar el modelo ?

No existe una respuesta estándar sobre el método de implementación específico. Por ejemplo, el sistema de palabras clave, siempre que pueda extraer una gran cantidad de palabras clave de alta calidad en el dominio abierto, es un buen sistema; por ejemplo, la mejora del modelo no se limita a Fastpair y BERT que hemos mejorado. En realidad, se pueden transferir ideas similares a la mayoría de los modelos conocidos en la academia / industria, pero aún le mostraremos nuestra implementación específica sin reservas, como referencia, para tirar los ladrillos.

Sistema de palabras clave

Como se mencionó anteriormente, un buen sistema de palabras clave debe ser capaz de extraer muchas y buenas palabras clave , es decir, un gran número y alta calidad.

Para lograr este objetivo, hemos introducido el campo concepto, acaba de encajar nuestras características Respondiendo dominio Pregunta abierta - que implica muchos campos, que abarcan una amplia gama Así que vamos a una avalancha de noticias / artículos con etiquetas de campo, a través de diversos medios de Se extraen las palabras clave candidatas. Luego diseñé un puntaje diff-idf para medir las características del dominio de esta palabra clave. Intuitivamente, la frecuencia de los documentos que aparece esta palabra clave en su propio campo es mucho mayor que la de otros campos. Después de ser truncado por esta clasificación de puntaje, se realiza el procesamiento posterior para eliminar el ruido, la normalización de la entidad, etc., y finalmente, junto con algunas entradas públicas, constituyen un gran diccionario de palabras clave. El proceso específico es el siguiente (más detallado pero indispensable).

Este proceso se ejecuta y actualiza todos los días. Nuestra cantidad actual de palabras clave llega a millones y la calidad de la evaluación manual también es buena. Aquí hay algunos casos:

Modelo de evolución

Del mismo modo, el modelo debe actualizarse en consecuencia. Nuestro modelo de ruta de evolución se muestra a continuación

En primer lugar, realizamos mejoras de palabras clave para el Fastpair de la ejecución en línea anterior, luego cambiamos la escopeta a BERT para abordar escenarios comerciales más complejos, y también realizamos mejoras a BERT, que llamamos Keyword-BERT Desde el punto de vista del índice, este es un modelo asesino , que ha logrado un salto cualitativo en la calidad de coincidencia, y elaboraremos a continuación.

Mejora Fastpair

La estructura del modelo de Fastpair es la siguiente:

En realidad, es una modificación de Fasttext para adaptarse al escenario de clasificación de texto. Debido a que Fasttext es para la clasificación de un solo texto y para clasificar pares de texto, obviamente no es suficiente usar solo las características de n-gramas de los dos textos, por lo que es natural agregar un par formado combinando las palabras en los dos textos. En cuanto a las características interactivas, este tipo de pensamiento es en realidad similar a los del modelo "basado en la interacción" que mencionamos al principio del artículo. Primero, integre completamente la información de los dos textos y luego clasifique. Luego nuestro problema es ¿Cómo transformar el modelo Fastpair para que además pueda "enfocarse" en la información clave? Nuestro cambio es muy intuitivo, es decir, la función de pares que contiene la palabra clave, más un peso adicional que se puede aprender, como sigue:

Aquí nos basamos en la idea de la descomposición de parámetros en FM y descomponemos el Wkq aislado en el producto interno de dos palabras, que no solo puede reducir la cantidad de parámetros, sino que también describe la similitud entre las características de pares que contienen palabras clave similares. Después de aproximadamente 60 w, Baidu sabe que el par problemático (la proporción de muestras positivas y negativas es 1: 1) se usa para el entrenamiento, y luego 2k muestras positivas y negativas difíciles de dividir se marcan manualmente para la predicción. Desde la perspectiva de los indicadores de predicción, la mejora es muy significativa.

Sin embargo, debido al problema inherente de la capa superficial del modelo Fasttext, la precisión de Fastpair no es alta, y las características de OOV por pares son inútiles. Cuando el escenario empresarial enfrenta mayores desafíos, debemos considerar la actualización de nuestro arsenal.

Palabra clave-BERT

En comparación con otros modelos de profundidad conocidos, BERT es una mejora del nivel de las bombas nucleares, por lo que lo elegimos por sentado (de hecho, también hicimos experimentos fuera de línea, y todos los resultados se esperaban) Dado que la estructura de BERT es bien conocida, lo haremos Sin entrar en detalles, ¿en qué nos centramos es en cómo agregar un módulo adicional de captura de información clave a BERT? Nuestras ideas están en línea con la mejora de Fastpair, pero esta interacción por pares se ha convertido en un mecanismo de atención. Los detalles son los siguientes:

Por un lado, introducimos una capa adicional de palabras clave en la capa superior. A través de la atención y la máscara, nos enfocamos específicamente en la información de palabras clave entre los dos textos para mejorar la información mutua entre ellos . Por otro lado, para La representación de la salida de los dos textos, utilizamos la idea de fusión en la comprensión de lectura de máquina para fusionar, y luego el resultado de la fusión se emite con el CLS a la capa de clasificación. Ambos son superiores al BERT original.

Descubrimos que cuanto menor es el número de capas, más evidente es el Keyword-BERT comparado con el BERT original. Esto también es fácil de entender, porque cuanto menor es el número de capas, menos información de nivel de oración BERT puede aprender, y las palabras clave son equivalentes para complementar esta información de nivel de oración. Lo último que lanzamos fue la palabra clave-BERT de 6 capas , Debido a que su rendimiento es muy similar al BERT original de 12 capas, y la velocidad de inferencia es mucho más rápida (bajo nuestro marco interno de aceleración BERT de desarrollo propio).

Extender

Modelo de intento de estructura

La estructura de Keyword-BERT dada en el texto es nuestra mejor práctica en muchos ensayos y errores, también probamos:

  1. Reemplace directamente la capa BERT original de la capa 12 con la capa de atención de palabras clave : el efecto no es bueno, porque la palabra clave solo se puede usar como información complementaria adicional, en lugar de reemplazar la información semántica original.

  2. Agregue la capa de atención de palabras clave a la capa inferior del modelo : el efecto no es bueno, porque la información clave se debilita gradualmente durante la "propagación" de la información de la capa inferior a la capa superior.

Trabajo futuro

Las palabras clave solo brindan información en una dimensión. También podemos agregar información más rica (como parte del discurso de las palabras, atributos gráficos de las palabras, etc.) para mejorar la capacidad de distinguir del modelo. El marco del modelo aún puede usar nuestra estructura existente.

El documento original y el código fuente se pueden ver :https://github.com/DataTerminatorX/Keyword-BERT

Publicado 45 artículos originales · ganado elogios 2 · Vistas 5228

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/105182946
Recomendado
Clasificación