Explorando la similitud semántica de oraciones

Es un entendimiento puramente personal. Si tiene alguna pregunta, por favor corríjame y discútala juntos.

Aplicación y dificultades:

Resolver la similitud de oraciones (texto corto) tiene muchas aplicaciones en escenarios reales, como la recuperación de información; recomendación de noticias, según el titular de la noticia que los usuarios buscaron, recomendar noticias con titulares similares u otras recomendaciones; servicio al cliente inteligente, según la entrada del usuario La pregunta se busca automáticamente en busca de preguntas o respuestas similares para los usuarios. Sin embargo, calcular la similitud de las oraciones se enfrenta a un gran desafío: el uso de métodos supervisados, el corpus chino es muy pequeño. En cuanto a los métodos no supervisados, no existe una forma ideal de modelar vectores de oraciones como word2vector . En segundo lugar, es difícil de definir similitud , ya sea para evaluar dos frases para expresar un significado , o para expresar el mismo tema .

Exploración de métodos :

Para encontrar la similitud de oraciones, la oración generalmente se expresa como un vector de oración, y luego se usa el valor cos o la equidistancia euclidiana para evaluar la similitud de las dos oraciones. Entonces, el principal problema central es cómo representar una oración como un vector de oración con información semántica. Básicamente, hay dos aspectos principales.

Primero: Aprenda directamente el modelado de oraciones Dado que hay pocos corpus etiquetados, la mayoría de ellos comienzan con métodos no supervisados. Experimentado con dos métodos en papel, un codificador automático neuronal jerárquico para párrafos y documentos y vectores de omisión del pensamiento . La idea básica de los dos artículos es usar un LSTM para codificar la oración para obtener el vector de oración, y luego usar un LSTM como decodificación para decodificar el vector de oración. La diferencia radica en la capa de clasificación softmax . El artículo anterior decodifica cada una de sus propias Palabras ,

El siguiente trabajo consiste en decodificar cada palabra de la oración en el contexto de la oración.

Ambos son métodos de aprendizaje de extremo a extremo y el resultado de la representación intermedia es un vector de oración. El efecto de calcular la similitud de oraciones no es ideal. Creo que la razón principal es que los dos métodos restauran cada palabra en la oración durante la etapa de decodificación, o entrenan el modelo a partir de la etiqueta de la palabra en la oración . Otra razón es que la construcción del modelo no comienza con el propósito de calculando la similitud de oraciones, a diferencia de En el aprendizaje de vectores de palabras, las palabras centrales correspondientes al mismo contexto son semánticamente similares Los dos métodos solo decodifican sus propias oraciones u oraciones de contexto, por lo que los vectores de palabras aprendidos no tienen buena información semántica.

Segundo: a partir del nivel de palabra , el vector de oración se expresa combinando el vector de palabra en la oración. Sin embargo, el chino es una palabra que se usa con frecuencia, por lo que las oraciones compuestas por diferentes combinaciones de la misma palabra pueden tener dos significados completamente diferentes, lo que también conduce a comenzar directamente desde el nivel de las palabras , lo que inevitablemente causa problemas. Sin embargo, el aprendizaje de los vectores de palabras tiene información semántica, aunque los vectores de palabras de oraciones se utilizan para expresar vectores de oraciones, aunque existen deficiencias, es relativamente estable en la actualidad.

El método más simple es agregar los vectores de palabras en la oración y promediarlos como el vector de oración de la oración. Puede utilizarse como método de referencia . Muchos artículos en los siguientes son mejoras a esta línea de base , porque la importancia de cada palabra en la oración es diferente. Hay ponderaciones tf-idf calculando la frecuencia de palabras y hay ponderaciones de autoaprendizaje.

Prueba 1: Similitud de oraciones Medidas para la estimación detallada de la relevancia del tema en los ensayos del alumno El artículo utiliza el aprendizaje para aprender el peso de cada palabra. Se considera que el vector de oración u es más similar semánticamente al vector de oración adyacente v , y no es similar semánticamente a su vector de oración distante z . El vector de oración también se obtiene por la suma ponderada del vector de palabras, minimizando la función de costo max (uz-uv, 0) para optimizar el peso de cada palabra.

Prueba 2: También se obtiene una línea de base simple pero ajustada para la inserción de oraciones ponderando y sumando los vectores de palabras en la oración, donde el peso de cada palabra es: pesos = a / (a ​​+ p (w) ) , a es un valor fijo, p (w) es el valor de probabilidad de cada palabra en el corpus. Después de obtener el vector de oración, pca nuevamente .

Prueba 3: De las incrustaciones de palabras a las distancias de los documentos Después de minimizar la distancia global de los vectores de palabras en dos oraciones, emd se utiliza para calcular la similitud de las dos oraciones.

Caso de prueba de muestra:

Método de ponderación de autoaprendizaje del papel uno (automático), método de peso sif + pca del papel dos ( sif_pca ) método de papel tres emd ( emd ), método de vector de palabra promedio ( aver ) y el efecto de prueba de llamar a Baidu (baidu) para resolver la similitud de oraciones

 

 

    Remedios para la diarrea infantil 

A todo el mundo le encanta ver comedias

Error de actualización de Redmi

auto

  Remedio casero para la diarrea del bebé 0,744

A mucha gente le gusta ver películas de humor          0.842

     Error 0.921 del sistema de actualización de Redmi

Remedios para el resfriado infantil   0.969

Hay muchos tipos de películas            0.388

           Error de cuenta de Redmi 0.751

Remedio casero para la diarrea    0.952

Es una persona graciosa            0.322

Cómo comprar un teléfono móvil Xiaomi      0.723

sif-pca

           Remedio casero para la diarrea del bebé 0,721

A mucha gente le gusta ver películas de humor          0.842

     Error 0.937 del sistema de actualización de Redmi

Remedios para el resfriado infantil      0.939

Hay muchos tipos de películas            0.370

           Error de cuenta Redmi 0.844

Remedio casero para la diarrea         0.964

Es una persona graciosa            0.791

 Cómo comprar un teléfono móvil Xiaomi 0.700

emd

           Remedio popular para la diarrea del bebé 0.619

A mucha gente le gusta ver películas humorísticas          0.378

Error      0.907 del sistema de actualización de Redmi

 Remedios para el resfriado infantil       0.917

Hay muchos tipos de películas            0.221

           Error de cuenta Redmi 0.993

  Remedio casero para la diarrea    0.916

Es una persona graciosa            0.266

Cómo comprar un teléfono móvil Xiaomi      0.260

tengo

Remedio casero para la diarrea del bebé            0.389

A         mucha gente le gusta ver películas de humor 0.892

     Error 0.925 del sistema de actualización de Redmi

Remedios para el resfriado infantil       0.937

Hay muchos tipos de películas            0,744

           Error de cuenta Redmi 0.917

 Remedio casero para la diarrea         0.965

Es una persona graciosa            0.819

Cómo comprar teléfono móvil Xiaomi      0.711

baidu

Remedio casero para la diarrea del bebé            0.90

A          mucha gente le gusta ver películas humorísticas 0.630

Error      0.90 del sistema de actualización de Redmi

Remedios para el resfriado infantil      0,740

Hay muchos tipos de películas            0.501

           Error de cuenta de Redmi 0.778

Remedio casero para la diarrea         0.810

Es una persona graciosa            0.501

Cómo comprar un teléfono móvil Xiaomi      0.263

 

para resumir:

Para el texto breve como Consulta , basado en los aspectos de nivel mundial de la oración de modelado de vectores de oraciones, aunque es demasiado tosco, pero no es particularmente difícil de entender, pero también el trabajo básico

Para las oraciones largas, cuando la mayoría de las palabras son iguales, es probable que el significado de toda la oración sea diferente. El vector de oración se construye a partir del vector de palabra y no puede capturar la información de la estructura gramatical de la oración. Con el análisis léxico, Puede modelar la similitud de la estructura gramatical con la oración. El impacto de puede mejorar el efecto.

Supongo que te gusta

Origin blog.csdn.net/BGoodHabit/article/details/79286474
Recomendado
Clasificación