De concordancia de textos relacionados con la dirección de resumen (datos, escena, papel, herramientas de código abierto)

Motivación

No hace mucho tiempo, en la víspera de una pequeña sabemos casi escribió una respuesta "PNL ¿En qué dirección investigación independiente" , por lo que hay una gran cantidad de pequeños socios para pedir referencias clasificar y fósforo, y en vista de la clasificación texto de información súper ha más, no escriben amigos (pero antes de escribir se puede ver en este artículo son relevantes para los trucos de clasificación "clasificación de texto resumen trucos importantes" ). Dado que los artículos de la escena coincidencia más, no más relacionados, en este artículo se ha comprometido a resumir la información relevante sobre un problema de coincidencia de texto puede perforar tus amigos.

coincidencia de texto es un concepto muy amplio, siempre y cuando el objetivo es estudiar la relación entre los dos textos, básico puede poner este tema como una coincidencia de texto. Debido a los diferentes escenarios de "juego" se define de manera muy diferente, por lo que el texto coincidente no es una investigación independiente completa. Sin embargo, hay un número considerable de tareas de PNL puede ser modelado como un problema de texto coincidente, cuando se modelan como coincidencia de texto, por supuesto, se encuentra el modelo de estructura, métodos de entrenamiento son muy muy similares, pero sutilmente diferente. Así que a pesar de este problema ejecutando una línea de base simple, pero el partido específico en cuestión no es fácil de hacer (sobre todo antes de que el BERT).

Aquí para hablar de los contenidos específicos de la puede perforar.

PD: número de suscripción entre bastidores respuesta "Texto de coincidencia" puede recibir pequeña juerga de la noche paquete Oh ~ papeles buenos (que incluye el texto de los documentos)

directorio del artículo

  1. Perforar el modelo de referencia
  2. Clocking escenarios de las misiones y los conjuntos de datos
    a. Paráfrasis y reconocimiento similitud calcular
    b. Partidos Q
    c. Coincidente Diálogo
    d. Razonamiento del lenguaje natural / texto contiene la identificación
    e. Información partidos de recuperación
    f. Máquina problemas con la lectura
  3. estructura de reloj siamés (representación basada)
  4. Fancy estructura atención de reloj (basado en la interacción)
  5. Clocking ranking de métodos de aprendizaje y evaluación
  6. modelo de pre-formación punzón
  7. Clocking herramientas de código abierto

Perforar el modelo de referencia

No importa cuál es el problema de adaptación específica es que hay algunos muy buena aplicación de línea de base se está ejecutando sobre el justo-directa.

Mi favorito es el uso del modelo de referencia SiameseCNN esta estructura, después de todo de nuevo desde cero línea de mano y muy rápido, y correr rápido, el efecto es decente, formación y relativamente estable, afectado por hiper-parámetros es relativamente pequeña.

 

v2-3ae885000f570573020afa0c4ce65a19_b.jpg

Demasiado ruidoso modelar la estructura general que se muestra en la figura normalmente no es necesario para lograr esto, se utiliza generalmente una en cada CNN a la codificación y TEXTB en texta necesidad de igualar, y luego volver a concat pooling max o haga clic para dar una agrupación de media dos vectores de texto Representa Veca y vecB (figura anterior u y v).

Después de que se puede aplicar directamente a unas fórmulas tales como la distancia coseno, distancia L1, la distancia euclídea, etc., para obtener la similitud de los dos textos, pero no necesariamente coincidir con el texto es juzgar estos dos textos son similares, además de una relación similar, también puede pregunta y respuesta relación, la conversación respuesta de texto contiene la relación de relaciones, y por lo tanto una práctica más común se basa en los vectores de características U y V para la formación del modelo de relación de correspondencia, a continuación, con modelos adicionales (como MLP) para aprender un texto común relación de mapeado función.

Este vector de características puede incluir la misma que la Fig. vec1, lo | vec1-vec2 |, vec1 * vec2, También puede incluir algunas de las más características de lujo, tales como pequeño noche a menudo con los max (vec1, vec2) ^ 2otros, maravillas a juego en algunos escenarios. Por supuesto, más o volar a las características cuidadosamente construidas de acuerdo con (mala) caso a juego con los reales.

Si tiene obsesión por LSTM, puede ser lstm usada en lugar de la CNN cuando codificador frase, es decir, el uso de la estructura SiameseLSTM, donde el mismo codificador se puede utilizar con una variedad de modelos pre-formados mirar a fortalecer la representación vectorial del texto.

La quema de ganso, después de los hechos, con el BERT, más me gusta tomar el BERT a la línea de base cuando el ╮ (¯ ▽ ¯ "") ╭, después de todo, incluso sin necesidad de escribir código, y más conveniente (a menudo una carrera de la línea de base, encontré que el problema resuelto) .

Clocking escenarios de las misiones y los conjuntos de datos

En primer lugar, el cálculo de la similitud y la identificación paráfrasis (textual similitud y paráfrasis de identificación)

Esto puede decirse que es el texto más típico juego de las escenas más clásica, es decir, para determinar dos textos no se expresan la misma semántica, que constituye la relación de repetición (paráfrasis). Todos los datos dados nivel de similitud se encuentra, mayor es el nivel, la etiqueta o bien a juego directamente más similar (que más razonable), dado 0/1. Este tipo de escenario es generalmente modelada como un problema de clasificación.

conjuntos de datos representativos:

  • STS de tareas SemEval : a partir de 2012 se lleva a cabo anualmente PNL juego clásico. Esta evaluación indicará el grado de similitud de los dos textos es de 0,0 a 5,0, más cerca de 0,0 significa que los dos textos no están relacionados, el más similar, el más cercano a 5,0. Utilizando los coeficientes de correlación de Pearson (Pearson de correlación) como un índice de evaluación.
  • Pares de preguntas Quora (QQP) : Este conjunto de datos se libera Quora. STS comparación, este conjunto de datos es significativamente mayor escala, 400K contiene unos pares de preguntas-pregunta, etiquetados 0/1, representantes de las dos preguntas de significado es el mismo. Desde el modelado se convirtió en tareas de clasificación, puede utilizar la naturaleza exacta del CAC y f1 amigos tan evaluación de la clasificación de uso común. (Saber cuándo liberar casi HuQP un conjunto de datos (∇))
  • El MSRP / en MRPC : Este es un estándar más conjuntos de datos de identificación paráfrasis. En conjunto de datos de texto son QQP de los problemas de las preguntas del usuario, y MRPC en la frase se deriva del corpus de noticias. Pero MRPC escala mucho menor, sólo 5800 muestras (después de todo, el lanzamiento 2005 de los conjuntos de datos y etiquetado de forma manual, para que pueda entender ╮ (¯ ▽ ¯ "") ╭). Al igual que QQP, MRPC general desagregada indicadores para evaluar esto con acc o F1.
  • PPDB : Este conjunto de datos paráfrasis es remotamente supervisar [] por medio de un método de clasificación de hacerlo, por lo que el tamaño relativamente grande. Tamaño del texto contiene nivel léxico (pares de palabras), nivel de frase (frases) y el nivel sintáctico (con análisis de la etiqueta). Y no sólo contienen corpus Inglés, así como el francés, alemán, español y otros 15 idiomas (¿Por qué no chinos!). escala corpus a partir del número S, número M hasta XXXL Nº permite a los usuarios descargar de forma selectiva también es muy divertido, de los cuales hay más de 70 millones frase nivel, nivel de la oración, hay más de 200 millones de dólares. Desde el corpus demasiado grande, la calidad puede ser marcada, de modo que incluso la palabra se puede utilizar para el tren del vector [1] .

En segundo lugar, Q coincidente (selección de respuesta)

Aunque Q problema de la concordancia identificado con la misma fuerza se modela como clasificación repetido, pero la escena real es a menudo para encontrar la respuesta correcta de la pluralidad de candidatos, y los datos asociados establece a menudo por medio de una pluralidad de ejemplos positivos negativos + realización partido construido, Muy a menudo modelado como un problema de clasificación.

En el método de aprendizaje, método de clasificación puede ser utilizado no sólo para hacer (llamado en la pregunta clasificación Pointwise Aprendizaje ), también se puede utilizar para aprender otro tipo de aprendizaje-a-rango, tales como pares de Aprendizaje ( "un par de muestras positivas y negativas con la cuestión de la" como una muestra de entrenamiento) y por lista de aprendizaje ( "la misma pregunta de todas las muestras ordenadas" como una muestra de entrenamiento). En consecuencia, los respectivos índices de evaluación también utilizan más la MAP , el MRR este ranking indicadores pertinentes.

Nota: Esto no significa puntual se compara este enfoque de clasificación será el rendimiento sin duda más débil, como se detalla en los documentos pertinentes

conjuntos de datos representativos, tales como:

  • TrecQA : contiene 56k de preguntas y respuestas para (pero sólo 1K más problemas, las muestras negativas Super Multi), pero el conjunto de datos original es un poco sucio, no contiene muestras de respuestas y sólo una muestra de las muestras positivas y las muestras solamente negativos (lo que la sentencia infierno), por lo que la investigación, a continuación, tomar nota, con alguna versión de papel limpia (filtro de los tres tipos de muestras), parte de la versión original, un conjunto de datos forzados en una doble vía.
  • WikiQA : Este es un pequeño conjunto de datos se construye a partir de búsqueda Bing de consulta y wiki de Microsoft. Contiene preguntas y respuestas sobre la 10K (1K más problemas), y finalmente la muestra normal de más o menos un poco. Papel [2]
  • QNLI : por fin tenemos grandes conjuntos de datos, esto es la transformación de conjuntos de datos SquaD incluidos en el contexto de la frase como un intervalo de respuesta coincidente casos positivos, otros casos de concordancia negativa, por lo que habrá cerca de 600 K Q (incluye cerca del problema de 100K).

En tercer lugar, el partido de diálogo (selección de la respuesta)

partido de diálogo puede ser visto como la versión avanzada de la prueba a partido, hay dos aspectos principales de la actualización.

Por un lado, presenta el historial de partidas ronda de conversaciones el diálogo sobre la base de preguntas y respuestas sobre el partido, dentro de los límites de la rueda histórico, y algunos de ellos podrían haber sido como candidato respuesta será, por tanto, convertirse razonable. Por ejemplo, la rueda de la historia mencionó que tienes 18 años de edad, por lo que para la consulta "¿Qué haces en casa hoy hacer", no se puede responder, "yo estaba en casa con los nietos, los".

Un ejemplo de un valor de cinco centavos (¬_¬): ps

Por otra parte, para una consulta, espacio de conversación Responder al espacio es mucho más grande que la respuesta a la pregunta, para la Q-consulta, la respuesta correcta es a menudo muy limitada, o incluso sólo uno, sino el diálogo como la consulta a menudo tienen una larga lista de rendimiento razonable, e incluso una montones de respuesta universal, tales como "Oh", "bien", "ja, ja". Muy a menudo responde con la consulta en el nivel léxico, básicamente, nada en común, y por lo tanto más difícil de entrenar a algunos de los contraste de modelos diálogo, la calidad de los datos algo menos difícil de converger. Por lo tanto hacer más preguntas y respuestas coincidentes, haga que se ajusta exactamente con el diálogo significa gota.

El problema se utiliza generalmente Recall_n k @ (n candidato, la respuesta razonable a las posiciones anteriores k aun recuerdan la aparición éxito) como un índice de evaluación, a veces como una prueba utilizando el mismo partido MAP, MRR y otros indicadores.

conjuntos de datos representativos:

  • UDC : Ubuntu diálogo El diálogo Corpus es el más conjunto de datos que contiene la tarea clásico juego 1000K varias rondas de diálogo (sesión de diálogo), un promedio de 8 por sesión de diálogo, no sólo a gran escala y de alta calidad, por lo que el reciente diálogo el trabajo básico correspondiente tiene que jugar en ella. Papel [. 3]
  • Conversación Corpus Douban : insiste en dar apariencia de UDC en busca de fallos, entonces, es la UDC es hacerlo en Ubuntu Technology Forum esta limitados conjuntos de datos de dominio, por lo que es tema muy especial de conversación. Así @ Wu Minamata liberación del gángster de este diálogo abierto para que coincida con el dominio de la recogida de datos, sino también porque es chino, por lo que el proceso de estudio de caso disfrutado. Papel [. 4]

En cuarto lugar, el razonamiento del lenguaje natural / texto implica el reconocimiento (Lenguaje Natural Inferencia / Pruebas de implicación)

El propósito de la INT, o tarea RTE es determinar el texto A y B de texto constituir una motivación relaciones / implicación semántica: Es decir, dada una sentencia de un estudio descriptivo y una descripción de "hipótesis" sentencia B "condición previa", si la oración A Descripción de la premisa, la sentencia si B es verdadero, entonces a contiene el texto digamos B, a o B se puede inferir, si B es falso, decir unas textos y B en conflicto; Si no puede venir a B se basa en una verdadero o falso, dicen que A y B son independientes.

Obviamente, la tarea puede ser visto como una tareas de clasificación de 3 vías, puede utilizar los métodos de entrenamiento y naturales tarea de clasificación de índice de evaluación. Por supuesto, hay algunas conjunto de datos anterior contiene sólo texto o no se determina, en el que el conjunto de datos no está unido a estos.

conjuntos de datos representativos:

  • SNLI : Stanford Lenguaje Natural Inferencia conjunto de datos es una de las veces la profundidad del aprendizaje conjunto de datos de hito PNL de 2015, cuando la liberación de 570.000 muestras de escritura a mano y anotación manual puro se puede decir que la conciencia de la industria, a continuación, se convirtió en un campo de la PNL es muy raro sitio de prueba de aprendizaje profundidad. Papel [. 5]
  • MnII : Multi-Lenguaje Natural Género inferencia conjuntos de datos con SNLI similares, SNLI pueden verse como una versión mejorada incluye diferentes estilos de texto (hablado y escrito), la frase contiene 433K
  • XNLI : significa Cross-lingual del Lenguaje Natural inferencia. En el nombre habría adivinado que se trata de un conjunto de datos multi-idioma, XNLI se basa en el número de muestras MnlI traducido en otro 14 idiomas (incluido el chino).

partido V. Recuperación de Información

Además de lo anterior cuatro escenas, así como en el partido de consulta de título de texto, consulta de documento coincidente, la recuperación de información de la escena correspondiente. Sin embargo, en escenarios de recuperación de información, los primeros artículos relacionados Recuperación General antes del método de búsqueda, y entonces los elementos relacionados rerank. En este tipo de problemas, el más importante es el ranking , en lugar de la selección blanco y no negro o simple. la clasificación cuestión no puede basarse únicamente en esta dimensión característica de un texto, y es relativamente juicio juego semántico de dos textos de la profundidad y lo delicado de la relación no es tan importante.

De una dimensión texto puramente es, qa, partidos qr NLI y métodos relacionados en la teoría, por supuesto, se aplicará de problemas consulta de título; y consulta-doc cuestión es más de un problema de búsqueda, como el modelo TFIDF recuperación convencional , BM25, etc. Aunque se trata de un nivel del término (plazo) de texto coincidente, pero la cooperación de expansión de consultas, en la mayoría de casos, se hayan hecho las miradas buenos efectos. Si tengo que considerar el nivel semántico del partido, se puede utilizar el método tradicional de LSA, LDA temas tales modelos. Por supuesto, obligó a la profundidad del aprendizaje no es el problema, por ejemplo, hacer una cierta comprensión de consulta, o incluso directamente coincide con la consulta-doc (siempre y cuando estén dispuestos a abandonar el despliegue de recursos), como por ejemplo relacionado con el trabajo

DSSM: CIKM2013 | Aprender modelos semánticos profundo estructurado para la búsqueda web utilizando datos de clics
CDSSM: WWW2014 | Representaciones de aprendizaje semánticos Uso de Redes Neuronales convolucional de búsqueda Web
HCAN: EMNLP2019 | Bridging the Gap Coincidencia entre la pertinencia y la coincidencia semántica de texto corto Similitud Modelado

En sexto lugar, la máquina de preguntas de comprensión

Al mismo tiempo, hay algunas tareas de concordancia de textos no tan intuitivas, tales como máquina de comprensión de lectura (MRC). Este es un problema en la sección de fragmentos de respuestas de texto, otro punto de vista puede ser modelado como contexto Q banda de adaptación (aunque un poco más candidato ╮ (¯ ▽ ¯ "") ╭). conjuntos de datos representativos como las series de equipo, MS MARCO, CoQA, NewsQA, respectivamente, comprenden una gran cantidad de problemas típicos PNL: el modelado de tareas MRC, tema multi-documento, varias rondas de problemas de interacción, el razonamiento problemas. Lo mismo ocurre con partido, como la representación relacionada con el trabajo BiDAF, DrQA y lo que es mejor golpe.

BiDAF: ICLR2017 | Atención bidireccional de flujo para la máquina Comprensión
DrQA: ACL2017 | Lectura Wikipedia contestar las preguntas Abrir-dominio

PD:

De hecho, el modelo anterior de cada escena no es tan malo, incluso algunas de las maneras de experimentar, casi dos años de trabajo directamente en más de una escena del partido son en su mayoría afirmación de que es un marco muy general de coincidencia / modelo. Por lo tanto, a continuación se describen perforadora de papel cuando no distingue entre las escenas, pero se divide en y expresado en base al punto de interacción para introducir ponche.

Nota: Mientras método de emparejamiento basado en texto representado (estructura de la red por lo general siameses) y el método de juego basado en la interacción de (Fantasía uso la atención general completa interacción) disputa desde hace varios años, pero al final fue el final de la coincidencia de texto o BERT y los más jóvenes . Así que por favor tome los dos siguientes acariciar el recuerdo de la historia del estado de ánimo de golpe, no se enreden los detalles del papel, en general, conocen la historia muy bien.

estructura de reloj siamés (representación basada)

Primero de dos de texto de configuración tal que se mencionó al principio y a continuación, obtener su representación vector de codificación, y para obtener una relación final de juego por la función de cálculo de similitud o estructuras relacionadas.

Sobre la base de la línea de base y SiameseCNN SiameseLSTM mencionan en el escenario, no hacer nada más en esta dirección es hacia abajo en ambas direcciones:

1. Reforzar el codificador, una mejor representación de texto

cálculo de modelado similitud función 2. Refuerzo

Para el primer sentido, no es más que el uso de codificador más profunda y poderosa, ponche de trabajo como representante

InferSent : EMNLP2017 | El aprendizaje supervisado de Representaciones Universales de frases de lenguaje natural inferencia de datos

PD: aunque el verdadero propósito de este trabajo es la transferencia del aprendizaje

SSE : EMNLP2017 | Los codificadores de frases de acceso directo-apilada para varios dominios de inferencia

Para el segundo sentido, es el uso de una función de función de cálculo de similitud más elegante o una red de fantasía estructura de similitud para el aprendizaje, que puede funcionar como punzón

SiamCNN: ASRU2015 | Aplicando el aprendizaje profundo a la selección de la respuesta: Un estudio y una tarea abierta
SiamLSTM: AAAI2016 | Siameses recurrentes Arquitecturas para Sentencia de aprendizaje Similitud
multi-vista: 2016 EMNLP | Multi-vista de la respuesta de selección para la conversación Hombre-Máquina

Obviamente, esta dirección jugabilidad no es fuerte (aunque bastante fácil de escribir el papeleo, pero fresco), así que no pregunte por qué sólo actualizado a 2017, desde 2016 la atención en todas partes, y, naturalmente, estamos corriendo a coger la marea hacer la flor básica escriba estructura de la interacción.

Fancy estructura atención de reloj (basado en la interacción)

Como el nombre sugiere, esta idea es primero a tamaño interactúan diferente (nivel de palabra, nivel de frase, etc.) representado por la atención estructural a dos textos, y el resultado coincidente de cada tamaño de partícula por una construcción polimeriza juntos como un super Además vector de características para obtener una relación final de juego.

Obviamente esta idea, además de texto interactivo de más de fantasía, es tener en cuenta el modelo se vuelve más oscura (y por lo tanto el modelado de alto nivel de relación de correspondencia).

Pero la experiencia personal, aunque esta línea de pensamiento puede jugar un montón de trucos, algunos de los documentos de discutir el punto también parece tener algo de verdad, pero muchos modelos son realmente loco (la violencia) en uno o dos conjuntos de datos muy pocos locos ( fuerza) cambio (búsqueda) en la estructura (por cable) y sólo entonces se pintaron las diversas fracciones, que parece ser la causa de esta estructura en una escena o incluso sólo algunos de los datos de series de trabajo, de hecho, esta estructura sólo pueden cumplir con los datos específicos algunas características o distribución de una escena en particular, lo que resulta en un montón de trabajo en el nuevo escenario en el efecto volcado, incluso tratando de ajustar los parámetros se transfieren no se mueve demasiado.

Por lo tanto, aunque en el modelo propuesto BERT antes de que tal documento se ve grande, pero no tan bueno como el conjunto de datos puede cambiar una palmadita en los parámetros de tono cabeza de SiameseCNN fácil de usar. Por lo que este tipo de papel en el cepillo, no se confunda por la estructura del modelo de lujo de miel ojos oh, una gran cantidad de trabajos relacionados, escoger y elegir unas cuantas más representativo o tener más información, o fácil de leer.

MatchCNN : AAAI2016 | Coincidencia de texto como reconocimiento de imágenes
DecAtt : EMNLP2016 | Un Modelo para la Atención descomponible lenguaje natural Inferencia
CompAgg : ICLR2017 | A COMPARAR-TOTAL MODELO texto coincidente SECUENCIAS
ESIM : ACL2017 | LSTM mejorado para Lenguaje Natural Inferencia
2018 COLING | Modelos de red neuronal para Paráfrasis Identificación, Semántica Pruebas Similitud, Lenguaje Natural inferencia y de Respuestas

ps: este documento en realidad puede ser visto como una gran suma de experimentos y análisis de cada frente de modelo

DAM : ACL2018 | Selección de múltiples vueltas de respuesta para chatbots con atención profunda red de adaptación
HCAN: EMNLP2019 | Bridging the Gap Coincidencia entre la pertinencia y la coincidencia semántica de texto corto Similitud Modelado

Además, una atención particular simetría aquí modelo sobre problemas como el cálculo de similitud de texto coincidente en tales escenarios / partido qq / partido título-título es simétrica, es decir, partido (a, b) = partido (b, a) pero después el modelo asimétrico, el modelo hará su propio aprendizaje de este conocimiento previo adicional, a menos que el conjunto de datos es grande, o tienen pre-formados, de lo contrario el efecto es muy fácil de rollo. Por supuesto, hay una serie de trucos puede ser obligado a utilizar un modelo asimétrico, es decir, en tal escenario para cada muestra de ejecución de nuevo coincidir (a, b) y fósforo (b, a) y después tomando la media, pero el modelo se compara con la simetría natural de lo bien que le mirar el nivel de la alquimia amigos maestros

aprendizaje golpe clasificación y el índice

punto a punto / parejas / por lista estrategia de aprendizaje El aprendizaje tiene tres datos de clasificación en todas partes, y no entrar en aquí. Aquí para recomendar este artículo son pequeños amigos que no están familiarizados

SLIN: Procesamiento del Lenguaje Natural (PLN) Entrevista esenciales: por puntos, dos a dos, por lista

Evaluación del MAP, MRR, NDCG como que no están familiarizados con el socio menor puede ver debajo de este artículo

Felix: El aprendizaje para clasificar el resumen básico algoritmo

Clocking modelos pretrain

Incluso después de varios años de alquimia, por la estructura de modelo que ya ha logrado buenos resultados en la escena tarea muy grande de texto de coincidencia, pero el experimento demostró que no podían seguir el modelo de la gran proporción de corpus pretrain, en primer lugar en un mapa, Q & A resultados experimentales sobre conjunto de datos TrecQA:

 

v2-07aa5688e1541a2fc06d8eaf0674efad_b.jpg

HCAN que se EMNLP2019 modelo propuesto recientemente, después de haber sido suspendido o golpeado ESIM, DecAtt modelo de lujo vieja generación, pero todavía se puede ver BERT suspendido o golpeado, por no mencionar a diferencia de XLNet, ERNIE2.0 y Roberta y otros modelos recientes a. Así que realmente unificó tarea texto coincidente, entonces, la situación actual no puede prescindir de modelo de pre-entrenamiento a gran escala.

Por supuesto, hay que utilizar el modelo de juego tradicional, entonces, al menos Elmo podría ser usado para forzar manualmente una cabeza Xiaoxuming []

Clocking herramientas de código abierto

Aunque la línea de base emparejado texto fácil de construir, sino para construir una escena específica sistema o carga de trabajo completa relativamente grande, con parte de la fácil de usar herramientas de código abierto puede mejorar en gran medida la eficiencia del desarrollo.

MatchZoo : un kit de herramienta de concordancia de texto genérico, incluye un número muy grande de conjuntos de datos representativos, modelos que se ajustan y escenas, interfaz amigable, muy adecuado utiliza para ejecutar la línea de base.
Anyq : marco Q y un conjunto para el FAQ, y el mecanismo de configuración de enchufe se hace igual que integra pila, y algunos modelo coincidente representante modelo de recuperación, la cobertura completa de la Análisis pregunta, Recuperación, Matching y cuatro Re-Rango una parte necesaria de hacer todo el sistema contestador.
DGU : una herramienta de comprensión diálogo universal a base de Bert proporciona una sencilla pero efectiva solución a la tarea de diálogo, una tarea clave llegado al máximo de conversaciones individuales (incluyendo varias rondas de diálogo partido) de SOTA es una experiencia mágica.

PD: número de suscripción entre bastidores respuesta "Texto de coincidencia" puede recibir pequeña juerga de la noche paquete Oh ~ papeles buenos (que incluye el texto de los documentos)

referencia

  1. ^ 2015TACL | De Paráfrasis Base de datos para composicional Paráfrasis del modelo y Volver
  2. ^ Yang Y, Yih W, Meek C. Wikiqa: Un conjunto de datos reto para-dominio abierto pregunta contestador [C] // Actas de la Conferencia de 2015 sobre Métodos empíricos en procesamiento del lenguaje natural. 2015: 2013-2018
  3. ^ Lowe R, Pow N, Serban I, et al. El corpus diálogo ubuntu: Un gran conjunto de datos para la investigación en sistemas de diálogo de múltiples vueltas no estructurados [J]. arXiv arXiv: 1506.08909, 2015.
  4. ^ Wu Y, Wu W, Xing C, et al. Red de adaptación secuencial: Una nueva arquitectura para selección de la respuesta multi-giro en chatbots a base de recuperación de [J]. arXiv arXiv: 1612.01627, 2016.
  5. ^ Bowman SR, Angeli G, Potts C, et al. Una gran corpus anotado para el aprendizaje de la inferencia lengua natural [J]. arXiv arXiv: 1508.05326, 2015

 

Publicado 33 artículos originales · ganado elogios 0 · Vistas 3282

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/104553503
Recomendado
Clasificación