NLPの問題でのアプリケーション注意メカニズムが記事にまとめられています。
参考論文:NLP問題における注意メカニズムに関する入門調査
https://arxiv.org/pdf/1811.05544.pdf
の形での注意1.基本的なメカニズム
直感的な理解:二つの入力ベクトルは、スコアを出力します
の形で1.1従来の注目メカニズム:
入力機構による注意を統合する(1)注目機構のスコアを計算(2)正則化(3)
工程(1)における分数注意メカニズムは、算出された3通りの方法で使用されています。
。乗算モード(乗法)
方法は、単に乗算2つのベクトルの内積を計算、注意スコアを行うことです。この種の計算が比較的単純であるため、多くの場合、言葉の計算に使用したので(言葉はコーパスの訓練を同意しなければならない、知識を検索するために使用することはできません)。
さらに、このようにベクトルの長さが異なっていても、そう計算を完了するために行列を乗算中間試みることができるからです。
B。加法(添加剤)
一般的には、行列演算等により非線形変換を介して再度、次いで縫合付加的にUVを指し、。
明らかに、いくつかの方法の方法のほかに、より乗算よりも複雑なので、彼は再びタスク機械学習は、より多くの学習能力を有することができます。
C。完全な接続
完全な接続は明らかに多くの操作をした後、その一般的に強い能力を持っていました。
異なるタスク2.ディスカッションバリアントの注目メカニズム
2.1分析例
自然言語処理タスクでは、注意これらのメカニズムは、多くの場合、我々の要求を満たすことができません。
知識クイズに基づいて、例えば:
例から、注目の伝統的なメカニズムは、問題(4)からの文章を見つけることは困難です。
2.2注意機構
このセクションでは紹介する:多次元フォーカス機構(多次元注意)、注意メカニズムのレベル(階層的注意)、自己注目機構(自己注意)、ネットワーク・メモリ(メモリベースの注意)、特に注意タスク(タスクの特定の注意)
(1)多次元焦点機構(例えばtranformerマルチヘッド)
出発点:スペースの異なる表現で、「ソース」と「ターゲット」複数の連絡先をキャプチャします。
Wk表示的维度为N*N,多维注意力机制就是将单个注意力机制的输出拼接起来。可以将其理解为在不同的层面做相似计算。
(2)层次注意力机制
以短文本分类为例,在分类中每个词的贡献程度可能不同,词可以成为相应对的clue。因为文本的组成形式为:字母(字)=>词=>句子=>文章。在长文本中,句子也自然成为相应的clue。
层次注意的结构有从底至上(词->句子),也有从顶至下(句子->词)。
a.从底至上的形式(目标得到文档级别的输出)
以文档分类分类为例,通常是构建词级别和句子级别的编码器,通常的形式如下:
b.从顶至下的形式(目标是词级别的输出)
以语法纠错为例,我们首先需要明白该句话的意思,来限制修改句子的大体,然后才需要关注到不同的词。
(3)自注意机制
传统的注意力机制是根据patterrn u和一个sequence{Vi},从而计算u和Vi的相关分数。自注意力机制的目标就是使用sequence中的元素作为相应的pattern。
目的:(1)是抓住句子中本身存在的关系。(2)以自注意力模型以自适应形式的方式学习复杂的上下问的token表示。
self attention获取的关系我们可以大致分为两类:词义间的关系、句子结构的关系。具体抓住了什么关系,我们使用自适应的形式。
(4)记忆网络
记忆网络中,存在一个query和一个存储记忆信息的序列。
注意机制的形式可以被根据如下理解:
记忆网络与普通的注意力机制相比,增加了可迭代单元,即将阅读到的信息重新增加到query中,这样的增加机制是因为答案和问题可能是简介相关的。此外,由于query和key都是显示表示,因此可以结合先验知识甚至人为设计。
以下是记忆网络的结构:
例子:
(5)特定任务的注意力机制
针对具体的不同任务,我们可以设计不同的注意力机制。
例如我们可以根据pagerank的思想,根据其相关链接的多少,提出对应的注意力机制。
....
3.注意力机制可以用来做什么
1.Ensemble
如果我们将序列中的元素看作是独立的,则相关系数则是他们的权重。因此我们可以通过权重加权求和得到该元素的ensumble结果。
以词向量为例,我们使用加权多个词向量,能够得到相应的中间词向量来获得更好的表征能力。
2.gating
使用注意力机制可以使用门机制的控制。
原本的GRU
注意力门控的GRU
3.Pre-training
预训练模型旨在通过大规模的语料库,来训练词语的表征能力。在Bert之类的模型中,显然通过注意力机制增加了模型的表征能力。
在我们使用Bert等预训练模型作为词向量嵌入时,由于其多层结构,越底层提取的越是词级别的信息,因此在具体任务中国通常可以把几个层使用注意的形式加到一起,以获得更好的词语表征效果。
4.未来
注意力机制是一个很成功的机器学习方法,但它也存在一些缺点。例如序列中的元素过多时,就会导致注意分数变得平均。此外,如何设计相应的query也是目前比较困难的问题。