[Notes papier] Bi-DAF (pour les réparations) - ATTENTION BIDIRECTIONNEL FLUX DE COMPREHENSION DE LA MACHINE

0 Résumé

  1. représente le contexte à différents niveaux de granularité
  2. utilise un mécanisme de flux d'attention bidirectionnelle pour obtenir une représentation contextuelle requête sans connaissance précoce summarization

1 introduisons

Notez que le mécanisme de travail précédent a généralement une ou plusieurs caractéristiques.

  • On utilise généralement l'attention du poids calculé pour extraire les informations les plus pertinentes selon le contexte résumé par le vecteur d'une taille fixe aux questions de réponse.
  • Dans le champ de texte, ce qui est généralement dynamique dans le temps, Attention Les poids sont à l' étape A l'heure actuelle La fonction du vecteur PARTICIPÉ
    À L' ÉTAPE Le temps précédent
  • Ils sont généralement unidirectionnel, où l'image de requête ou de participer dans le contexte du paragraphe.

le flux (BIDAF Attention bidirectionnelle réseau), qui est une structure hiérarchique à plusieurs étages, utilisé dans le contexte de différents niveaux de granularité de représentation modélisation paragraphes .includes Caractère de niveau , de niveau mot à , et plongements contextuelles , et utilise Attention flux bidirectionnel pour obtenir une représentation de contexte de requête-Aware.

  1. Couche ne nous appartient pas attention au contexte des vecteurs de paragraphe de résumé taille fixe. Il est calculé à chaque étape, et d'obtenir le vecteur, de même que la couche précédente, on le laisse circuler à travers la couche suivante. Cela réduit les pertes causées par la généralisation.
  2. des mécanismes d'attention utilisés dans les deux directions, une requête de contexte et le contexte à la requête, fournir des informations complémentaires.
  3. Une utilisation du mécanisme de l' attention sans mémoire . Lorsque le temps vers le bas calcul Attention, Attention à chaque pas de temps est l'étape de l' heure actuelle et émettre en fonction du contexte du paragraphe, le temps de l' attention ne dépend pas à l' étape précédente. En supposant que cette division du travail mène à une couche d'attention de modélisation simplifiée et couche. Cela a forcé l' attention avant les couches d'attention et de se concentrer sur l' apprentissage du contexte de la requête, ce qui permet la couche de modélisation pour se concentrer sur l' apprentissage de la représentation sensible au contexte requête (la sortie de la couche d'attention). attention moins de mémoire donne un net avantage sur l' attention dynamique.

2 modèle

Insérer ici l'image Description
couche du modèle 6, comprenant:

  1. Intégration de caractères de couche : par caractère niveau CNNs et à la carte chaque mot à l'espace vectoriel.
  2. Intégration Word couche : par mot de plongement cartes chaque mot formés dans un espace vectoriel.
  3. Intégration contextuelle Layer : en utilisant des indices contextuels Wordclock filtrés à travers le mot.
    Les trois couches ci - dessus sont appliquées au contexte de la requête, et
  4. Couche d' écoulement l'attention : requête obligatoire et vecteur de contexte pour chaque mot dans le contexte vecteur caractéristiques de génération requête consciente d'un groupe.
  5. Modélisation couche : Utilisation RNN contexte de balayage.
  6. Couche de la sortie : fournir une réponse à la requête.

spécifique

  • Intégration de la couche de caractères
    Soit {X1, ...} et {xT Ql, ...} QJ L'ENTRÉE représentent les mots dans le contexte et le paragraphe requête, les mots utilisés pour chaque niveau de caractères obtenus mots CNN embarqués.

  • Mot Embedding couche
    chaque mot est mis en correspondance dans l' espace vectoriel de grande dimension. Utiliser vecteur formé, GANT, obtenir chaque mot de correction de mot intégré. caractère et mot concaténation des vecteurs, les deux entrées du réseau routier (réseau routier), la sortie du réseau routier est un vecteur à deux dimensions d, OR2 matrice. sortie contexte X, Q de sortie de requête, D T et D dimension J.

  • Couche d' enrobage contextuelles
    sur la face de la couche enterrée placée entre le moment où un mot d'interactions analogiques LSTM. LSTM utilisation à deux voies, deux sorties LSMC être concaténation.

Dans lequel les trois couches ont été calculées avant et requête contexte de différentes tailles de particules, et multi-échelle des caractéristiques similaires à CNN.

  • ** Attention ** Couche débit
    connexion et l' intégration des informations de contexte et de la parole. On notera que chaque pas de temps permet au vecteur, et l'écoulement de la couche précédente à la modélisation ultérieure couche enterrée. Cela réduit la perte d'informations causée par le début de la digestion.
    Nous calculons l' attention dans deux directions: à la requête du contexte et de la requête au contexte.
    S TJ représente la t-ième mot et j-ième mot contexte requête similitude, calculer une matrice de similarité comme suit:
    Insérer ici l'image Description

    • Attention contexte à la requête.
      Contexte de la présentation des notes requête (C2Q) quels mots la requête la plus pertinente pour chaque mot de contexte.
    • Attention , requête à contexte. Les
      requêtes au contexte (Q2C) note représente l' un quel contexte le mot et rechercher des mots avec la plus grande similitude, donc la réponse à la question est essentielle.

    Enfin, l'attention des vecteurs incorporations de contexte et combinés pour produire G, dans laquelle on peut considérer chaque vecteur de colonne comme la représentation consciente requête de chaque mot de contexte.
    Insérer ici l'image Description

  • La modélisation de la couche.
    Couche Entrez modélisation est G, il code les représentations sensibles au contexte de la requête de sortie words.The de la couche de modélisation capture l'interaction entre les mots de contexte conditionnés sur la requête. Bidirectional LSTM, pour obtenir une matrice M ( 2d * T), la réponse serait prédite par la couche de sortie. Chaque vecteur de colonne de la M désirée contient des informations contextuelles sur le contexte dans son ensemble des requêtes de paragraphe et de mot.

  • Couche de sortie
    couche de sortie est spécifique à l' application. La nature modulaire nous permet d'échanger facilement couche de sortie BIDAF selon la tâche, et le reste restent exactement la même architecture.
    Insérer ici l'image Description

  • formation
    Insérer ici l'image Description

  • tester
    Insérer ici l'image Description

Publié 63 articles originaux · louange gagné 13 · vues 40000 +

Je suppose que tu aimes

Origine blog.csdn.net/changreal/article/details/103106740
conseillé
Classement