[Notas de papel] Bi-DAF (para reparaciones) - FLUJO DE ATENCIÓN bidireccional para COMPRENSIÓN DE LA MÁQUINA

0 Resumen

  1. representa el contexto en diferentes niveles de granularidad
  2. utiliza el mecanismo de flujo atención bidireccional para obtener una representación contexto de consulta-conscientes y sin resumen temprana

1 introducen

Tenga en cuenta que el mecanismo de trabajo previo por lo general tiene una o más características.

  • Atención peso calculado se utiliza generalmente para extraer la información más relevante de un contexto a sumada por el vector de un tamaño fijo para responder a las preguntas.
  • En el campo de texto, que por lo general es dinámica en el tiempo, Atención Los pesos están en la etapa a la hora actual La función del vector ASISTIDO
    PASO A la vez anterior
  • Por lo general son unidireccionales, donde la imagen de consulta o participación en el contexto del párrafo.

el flujo de Atención bidireccional (BIDAF red), que es una estructura jerárquica de múltiples etapas, que se utiliza en el contexto de diferentes niveles de granularidad de los párrafos de representación de modelado · Incluye Carácter de nivel , Palabra de nivel , y las incrustaciones contextuales , y utiliza flujo bidireccional Atención a obtener representación contexto Una consulta-Aware.

  1. Capa no es nuestra atención por el contexto de los vectores de párrafo resume de tamaño fijo. La atención se calcula en cada paso, y obtener el vector, junto con la capa anterior, se dejó fluir a través de la capa siguiente. Esto reduce las pérdidas causadas por la generalización.
  2. mecanismos de atención utilizados en ambas direcciones, consulta-a-contexto y contexto-a-consulta, proporcionan información complementaria.
  3. Un uso mecanismo de Atención sin memoria . Cuando el tiempo de inactividad cálculo de Atención, atención en cada paso de tiempo es el intervalo de tiempo actual y emite una función del contexto del párrafo, el tiempo de atención no depende de la etapa anterior. Suponiendo que esta división del trabajo conduce a una capa atención modelado simplificado y capa. Esto ha obligado a la atención antes de capas de atención y concentrarse en aprender el contexto de consulta, lo que permite modelar la capa de concentrarse en el aprendizaje de la representación contexto de consulta consciente (la salida de la capa de la atención). atención sin memoria da una clara ventaja sobre la atención dinámica.

2 modelo

Aquí Insertar imagen Descripción
capa del Modelo 6 que comprende:

  1. Incorporación de caracteres Capa : por CNNs personaje de nivel, y para mapear cada palabra al espacio vectorial.
  2. Incorporación de la capa Palabra : por personal capacitado palabra incrustación mapea cada palabra en un espacio vectorial.
  3. Incorporación de la capa de contexto : el uso de claves de contexto palabra filtrada desde alrededor de la palabra embebidos.
    Las tres capas anteriores se aplican al contexto de consulta, y
  4. Flujo de la capa de Atención : consulta vinculante y el vector de contexto para cada palabra en las características de generación de consultas-conscientes contexto vectorial de un grupo.
  5. Capa de modelado : contexto del análisis Uso RNN.
  6. Colocar una capa de salida : proporcionar una respuesta a la consulta.

específico

  • Incorporación de caracteres capa
    Sea {X1, ...} y {xT Ql, ...} QJ La entrada representan las palabras en su contexto y en el apartado de consultas, las palabras que se usan para cada nivel de personaje obtuvieron palabras CNN incrustados.

  • Palabra incrustación de Capa
    cada palabra está asignada al espacio vectorial de alta dimensión. Utilizar vectores entrenado, guante, obtener cada palabra solución word interna. carácter y palabra concatenación de vectores, las dos entradas a la red de carreteras (red de carreteras), la salida de la red de carreteras es un vector bidimensional d, matriz OR2. salida contexto X, salida de la consulta Q, D T y D dimensión J.

  • Capa contextuales incrustación
    en la parte frontal de la capa incrustada proporcionado entre el tiempo de una palabra interacciones analógicas LSTM. LSTM uso de dos vías, dos salidas lstm ser concatenación.

En el que se calcularon las tres capas antes y consulta contexto de diferentes tamaños de partícula, y multi-escala características similares a CNN.

  • ** Atención ** flujo de la capa
    de conexión e integración de la información de contexto y de la palabra. Tenga en cuenta que cada paso de tiempo permite que el vector, y el flujo de la capa anterior a la capa incrustada de modelado subsiguiente. Esto reduce la pérdida de información causada por la temprana digerir.
    Calculamos la atención en dos direcciones: a la consulta del contexto y de la consulta con el contexto.
    S TJ denota el t-ésimo y j-ésima palabra de consulta contexto similitud de palabras, calcular una matriz de similitud como sigue:
    Aquí Insertar imagen Descripción

    • Contexto-a-consulta de atención.
      Contexto de la nota que muestra la consulta (C2Q), que consulta palabras más relevantes para cada palabra contexto.
    • Consulta-a-contexto atención.
      Consultas a la (Q2C) Nota contexto representa uno de los cuales contexto la palabra y buscar palabras con la similitud más cercano, por lo que la respuesta a la consulta es esencial.

    Por último, la atención vectores de incrustaciones de contexto y se combinó para producir G, en donde cada vector columna puede considerarse como la representación query-consciente de cada palabra contexto.
    Aquí Insertar imagen Descripción

  • Modelado de capa.
    Introduzca modelar capa es G, que codifica las representaciones de consulta-consciente de contexto salida words.The de las capturas de capa de modelado de la interacción entre las palabras de contexto acondicionado en la consulta. Lstm bidireccional, para obtener una matriz M ( 2d * T), la respuesta sería predicho por la capa de salida. Cada vector columna de la M deseado contiene información contextual sobre el contexto como un conjunto de consultas de párrafo y de palabras.

  • Capa de Salida
    capa de salida es de aplicación específica. La naturaleza modular nos permite intercambiar fácilmente capa de salida BIDAF de acuerdo con la tarea, y el resto siguen siendo exactamente la misma arquitectura.
    Aquí Insertar imagen Descripción

  • formación
    Aquí Insertar imagen Descripción

  • prueba
    Aquí Insertar imagen Descripción

Publicado 63 artículos originales · elogios ganado 13 · Vistas a 40000 +

Supongo que te gusta

Origin blog.csdn.net/changreal/article/details/103106740
Recomendado
Clasificación