comprensión de lectura nervioso [Notas] revisión del papel de papel + MRC y más allá resumen básico

Máquina de comprensión de lectura (principalmente NRC)
MRC: recogida de datos y la tecnología - sobre todo la comprensión de la lectura del nervio

conjunto de datos (ver conjuntos de datos detallados o papel de nota mapa)

  1. Respuesta conjunto de datos de extracción: triviaQA \ SQUAD1.0 / 2.0; triviaQA; WIKIHOP (razonamiento multi-hop)
  2. 描述 性 descriptiva: NarrativeQA \ preguntas sin respuesta)
  3. Respuesta múltiple elección de opción múltiple: RACE; CoQA; ARC
  4. Detrás de la tendencia de los futuros conjuntos de datos dirá

La base MRC

RC cuatro categorías de tareas

  1. tipo Cloze, problemas incluyen un marcador de posición del marcador de posición
  2. Tipo de respuesta de opción múltiple, pero una palabra, frase u oración -CoQA
  3. Rango tipo de predicción (Q extraíble extractiva de pregunta y respuesta), la respuesta debe ser un intervalo de texto. Por lo tanto, la respuesta se puede expresar como (a_start, a_end) Plantilla
  4. De forma libre tipo de respuesta (de forma libre respuesta), la respuesta es permitir a cualquier forma de texto a∈V CoQA

    Hay múltiples Hop Hop Pregunta inferencia múltiple: hotpotQA
    el tipo de razonamiento PS
    palabra coincidente
    Parafraseando
    SOLO frase Razonamiento
    frase Multi-Razonamiento
    ambigua / insuficiente
    la resolución de la correferencia

índice de evaluación

De uso general:

  • EM (coincidencia exacta), F1 (F1 puntuación de la palabra promedio calculado solapamiento)
  • De forma libre tarea de comprensión de lectura respuesta no es ideal de evaluación

MRC y QA

  • sistema de alto rendimiento RC se ha convertido en una cuestión clave y el sistema de respuesta / diálogo.
  • RC como un ejemplo de control de calidad, pero hacen hincapié en cosas diferentes:
    meta de control de calidad es establecer un sistema, el sistema puede depender de los recursos.
    RC énfasis en la comprensión de textos y algunas de las cuales son consideradas como una medida de la magnitud del problema agudo de la comprensión del lenguaje, por lo que toda la información para contestar preguntas de comprensión desde el propio artículo, en lugar de cualquier conocimiento del mundo.

Los bloques de construcción básicos de la NRC

  • incrustaciones de palabras (ahora hay inclusiones de caracteres \ incrustaciones de contexto)
  • RNN o párrafos del estado cuando el modelado PNL (variante lstm grus bi-RNN, etc.)
  • mecanismo de atención (las tendencias recientes, transformador nueva arquitectura de red neuronal depender exclusivamente de mecanismos de atención):

    suave \ disco \ co \ bi \ auto-partido

modelo MRC (MRC resumen documentos de revisión)

  • Casi todos los modelos son pelotón de hacer el mismo marco se puede resumir como:

    incrustar capa, capa de Encode, Capa de interacción y la capa de respuesta.

    Pero diferente ReasonNet, utilizando redes de memoria marco + mejora del aprendizaje; proceso de razonamiento mímica humana

  • NN se refiere a la estructura: R-NET \ FastQA \ QANET Q y arquitectura (codificador sólo por la convolución + auto-atención compuesta no RNN)

  • Ver el modelo de lenguaje: Bert (que será un modelo de transformador de dos vías para el idioma) \ XLNet

Detalles y consejos:
  1. BiLSTMs apiladas

    (Se puede aumentar la profundidad de la pregunta y de paso codificar los bi-LSTMs, apilados BiLSTM mejor que una monocapa)

  2. Abandonar

    (Capa LSTM incrustado se puede añadir a la entrada, vector oculto)

  3. el manejo de la incrustación de palabra

    (O cuando la composición sea lo suficientemente grande, poner a punto las incrustaciones todas las palabras, cuando un pequeño grupo de aprendizaje puede ser fijado como una característica estática)

  4. afinar

    Comúnmente usadas palabras de pregunta (por ejemplo: cómo lo cual) puesta a punto es muy útil!

  5. modelo integrado puede mejorar aún más el rendimiento de algunos puntos!

[Bueno] componentes clave y mejorado:

  • Los avances recientes para:

    Antes de la Capacitación modelo de lenguaje de inicialización;
    más mecanismos de atención de grano fino;
    tecnología de mejora de datos;
    mejor los objetivos de formación
    en varias formas de mejorar: en una palabra, dicho mecanismo de atención, variante LSTMs, otros (objetivos, expansión de datos)

  • Palabra dice:

    1. Aprendizaje Distribuido mejor representación palabra, encontrar una palabra mejor está incrustado en un conjunto de tareas específicas (como el guante con representación vectorial actualizado Fasttext en su lugar)
    2. Caracteres incrustados embeddigns de caracteres (palabras raras fuera del vocabulario o palabras con más - Modo> Superficie CNN n-gram carácter char-CNN)
    3. Incrustar el contexto de la palabra - (como Elmo Inclusiones) importante innovación
    • Incrustar el contexto de la palabra + + word interna se utiliza con caracteres tradicionales incrustados, que pre-formados en un muy gran palabra corpus de texto incrustado en el contexto de la muy eficaz

      ---- Sobre la base de las estadísticas anteriores, no puede resolver el problema de la polisemia ----
      ELMO (incrustaciones de LM) pueden resolver el problema de la polisemia
      GPT-- no utilizar LSTM, mediante el transformador de
      Bert (no puede procesar requiere razonamiento complejo ejemplos de los beneficios de Bert véase más adelante)
      GPT \ GPT2 están utilizando un solo sentido el aprendizaje de un modelo de lenguaje para representar palabras, el uso de dos vías Bert, Elmo, aunque teniendo en cuenta el contexto del contexto, pero no tan bueno como Bert

  • Pre-entrenamiento de los métodos
    actualmente en los métodos de entrenamiento antes de término se puede dividir en dos tipos principales:

    1. Características (basados ​​en características) en las principales representantes de Elmo, con un modelo que aprender a hacer la combinación tarea de parámetros en el modelo de avance lenguaje pre-formados estado interno escondido
    2. El principal representante de recorte (puesta a punto) tiene openAI GPT, utiliza los datos para poner a punto la tarea ha sido entrenado modelo de lenguaje.

    No es más que una cuestión de formación previa, el fin de una sola vía se encuentra en pre-entrenamiento al considerar sólo el texto, no siempre es una buena solución al problema, mientras que el aprendizaje de información de contexto vocabulario (Elmo simplemente uniendo las dos direcciones solamente), este artículo la bert propuso un nuevo método de modelo de lenguaje pre-entrenado.

  • mecanismo de atención - entre la similitud semántica de los temas y artículos de captura

    • bi-atención
    • auto-atención

    Se puede alinear con otros artículos en el artículo de la palabra de las palabras, espero que pueda resolver el problema de las referencias cruzadas, y recoger (la misma entidad) la información de múltiples lugares en el artículo - un párrafo.
    atención, así (soft \ disco \ co \ bi \ auto-partido)

    • transformador:

    Un tipo de mecanismos atencionales, puede aprender el contexto de la relación entre la palabra de texto. Prototipo consta de dos mecanismos independientes, un codificador de texto se encarga de recibir como entrada, un decodificador es responsable de la predicción de los resultados de la tarea.

    El objetivo de BERT es generar modelo de lenguaje, por lo que sólo necesita mecanismo codificador.

    • reemplazo LSTM

    Debido LSTM clasifica desaparecer, los problemas de escalabilidad, el número de capas aumenta el tiempo de entrenamiento es el crecimiento lineal.
    Método:
    añadir o conector 1. decirle La conexión entre las capas residuales
    2. (sustitución RNN) LSTM Alternativamente: transformador, SRU
    Ejemplo: QANET Q Architecture (Encoder sólo por la composición auto-atención convolucional + sin RNN)

  • La mejora de los objetivos de formación:

    • Espacios en blanco o preguntas de selección múltiple: los mayores de entropía cruzada o marginales pérdidas
    • lapso Prediction lapso :, se refiere a una palabra entre los solapamientos de respuesta del oro con la realidad del terreno; TTI mezclado, la posición de la intersección de una palabra después de la cantidad de pérdida de entropía solapamiento y la formación combinado con el aprendizaje por refuerzo
    • forma libre de control de calidad: Mejor seq2seq; entrenamiento nivel de la oración; formación mínima de riesgo
  • mejora de los datos:

    • el aumento de los datos: (. Joshi et al, 2017) Plantilla y TRIVIAQA formación conjunta puede mejorar moderadamente rendimiento en escuadra.
    • De alto rendimiento multi-tarea de aprendizaje de transferencia de modelo y aprender más investigación para establecer a través de conjuntos de datos

Ahora vs Futuro

problemas existentes:

razonamiento numérico, razonamiento problema multi-hop, o el problema no está en un documento grande o documentos de control de calidad; De acuerdo con el artículo planteado preguntas demasiado simples, no es necesario el razonamiento multi-frase, permitiendo sólo el artículo problema en un lapso puede ser respondida

problemas existentes: el final de la distracción añadida de una oración, añadir efectos no gramaticales secuencia de palabras peores;

  1. El modelo actual se basa en gran medida en el tema entre los artículos y las pistas de vocabulario. Distrayendo frase sería tan destructivo;
  2. Modelo logra una alta precisión en el plató de desarrollo original, pero por ejemplo de confrontación, su robustez no es fuerte. Este es un estándar cuestión clave paradigma de aprendizaje supervisado, que hace que el modelo existente difícil de implementar en el mundo real.
  3. Los modelos actuales se centran sólo en la superficie de la información de texto en la comprensión de la (ligeramente) nivel más profundo, todavía hay un simple error.
  4. Hay algunos ejemplos de las dificultades que requieren PELOTÓN razonamiento complejo, pero debido a su escasez, su exactitud no es realmente reflejan en la métrica de promedio.

Future Trends

Los conjuntos de datos: En comparación con el equipo, estos conjuntos de datos:

  • O un razonamiento más complejo cruz-temporal o documento (hotpotQA múltiples documentos) o documentos requieren un procesamiento más largo (triviaQA NarrativeQA), un documento largo con la codificación RNN poco práctico;
  • Ya sea que usted necesita para generar respuestas de forma libre en lugar de extracto de un solo tramo, (NarrativeQA)
  • Ya sea que usted necesita para predecir cuando el artículo no es la respuesta. (SQUAD2.0)

Modelo del futuro:

  • mayor velocidad y escalabilidad, pueden extenderse a los documentos más largos

    RNN de codificación con un documento muy largo (por ejemplo TRIVIAQA) o incluso un libro (por ejemplo NARRATIVEQA) no es realista, es todavía un reto

    Más rápido construir el modelo (para la formación y el razonamiento)

    1. no recurrente o más ligero modelo de transformador modelo sustituido LSTMs
    2. Formación y aprendizaje para saltar partes del modelo de documento, por lo que no leer todo el contenido de correr más rápido; tesis:. Yu et al (2017) y Seo et al (2018)..

    algoritmo de selección optimizada también afectará en gran medida la velocidad de convergencia, y el rendimiento del hardware multi-GPU

  • Robustez:
    el modelo de confrontación existente, por ejemplo, es muy frágil, la mayor parte del trabajo actual sigue el paradigma estándar: dividir un conjunto de datos de formación y evaluación.

    Futuro:
    1. ¿Cómo crear mejores ejemplos de entrenamiento de confrontación y añadirlos al proceso de formación
    2. Para un estudio más a fondo de la migración de aprendizaje y el aprendizaje multi-tarea, el establecimiento de un modelo de alto rendimiento a través de conjuntos de datos.
    3. estándar ruptura aprendizaje supervisado paradigma, y considerar cómo crear una mejor manera de evaluar nuestro modelo actual

  • Interpretabilidad: interpretabilidad (difícil)

    1. La forma más fácil de aprender es preguntar al modelo para extraer fragmentos del documento de entrada como evidencia de apoyo

La estructura del modelo: elemento que falta

  1. El modelo actual se basa ya sea en o manijas simétrico modelo secuencia de todas de las palabras (transformador), pero ignora la estructura inherente de la lengua.
  2. El conocimiento de la lengua / estructura sigue siendo una adición útil a los modelos existentes.
  3. La mayor parte del modelo existente que aún falta es otro aspecto de los módulos (módulos), si queremos lograr un nivel más profundo de comprensión de lectura, nuestro modelo futuro será más estructurada, modular integrado para resolver una tarea puede ser dividido en una serie de sub-problemas, podemos resolver cada pequeños sub-problemas (por ejemplo, para cada tipo de razonamiento) solo y una combinación de los mismos.

Las preguntas de investigación

  1. índice de evaluación de la comprensión lectora?

    Los participantes exámenes estandarizados como una máquina de evaluación puede leer una buena estrategia para entender el funcionamiento del sistema.
    El futuro necesita una gran cantidad de datos de lectura de comprensión Chichi convertirse en un banco de pruebas para evaluar, no sólo probado en un conjunto de datos.
    Necesitamos entender mejor nuestro conjunto de datos existente: Descripción de las habilidades requeridas de su calidad y para responder a las preguntas, sería un paso importante en la recopilación y análisis de datos más desafiante modelo de comportamiento del edificio.

  2. Representaciones vs. Arquitectura en el papel de impacto sobre la comprensión lectora modelo de rendimiento
    de dos modelos muestran los dos extremos:

    Por un lado sin supervisión increíble poder de representación (Radford et al, 2018 ;. Devlin et al, 2018). modelo de lenguaje de gran alcance de una gran cantidad de texto en un pre-entrenado, el modelo tiene un gran número de atributos sobre el lenguaje de codificación, y un modelo simple de un capítulo y problemas conectada suficiente para aprender las dependencias entre ellos. (Con un modelo de lenguaje pre-formación completa, puede reducir en gran medida la complejidad de la parte comercial de la estructura de la red)

    Por otro lado, cuando la palabra se da sólo incrustado, parece que la interacción entre el artículo y el modelado problema (o modelo de conocimiento más antes) ayudará.

    Más investigación sobre el aprendizaje y el aprendizaje no supervisado de transferencia en el futuro, alentado.

* Modelo (papel chen se puede guardar)

  1. Capítulo de codificación y la codificación problema (pregunta codificación y la codificación de paso)

    Codificación de texto atenta Stanford
    lector de empalme empalme: palabras de inserción, Token capítulo, EM, alinear cuatro componentes

  2. Cálculo del contexto de un problema y su función similitud entre el corto plazo (problema obtenido - Paso de tasa de similitud)
  3. La previsión de respuesta (atención a entrenar dos clasificadores posición inicial)
  4. El entrenamiento de la formación y el razonamiento y la inferencia (objetivo de entrenamiento aquí es reducir al mínimo la pérdida de entropía cruzada - Preguntas y respuestas comunes en forma de manera general)

MRC dirección de Investigación

  1. Q áreas abiertas (+ recuperación de información de comprensión de lectura), preguntas generales respuesta
  2. En forma de preguntas y respuestas de sesión (+ diálogo comprensión de lectura) durante un período de varias rondas de diálogo de texto
Publicado 63 artículos originales · elogios ganado 13 · Vistas a 40000 +

Supongo que te gusta

Origin blog.csdn.net/changreal/article/details/101765754
Recomendado
Clasificación