2019年までの技術の方法のNLP_stateにおける注意モジュールの概要
- まず、(2015)「共同合わせ、翻訳を学ぶことにより、ニューラル機械翻訳」で提案されています。しかし、もっともともとコンピュータビジョン分野インチ
- デコーダ隠れ状態の一部を構成するために、エンコーダ/デコーダ隠れ層の線形結合の重みをCALC
我々は注意モデルを必要とする理由:
-
- オリジナルNMTは、長い文章で情報をキャプチャすることができませんでした
- RNN、又はエンコーダ・デコーダ構造は、長期記憶の問題に対処するために提案されました
- しかし、エンコーダ・デコーダは、まだテスト段落は非常に長くなることながら、修正長隠れ状態は無限の情報を保存することができないので、非常に長い文章の問題を持っている(入力することができ、Googleの翻訳で5000語)。Bahdanauコンテキストベクトルの計算は、発電性能のボトルネックになり得ることを示しました。
- また、近くに文章中の情報は、私たちが口座に単語や文章の間に関連性を考慮する必要があることを意味遠く1、より重要ではないかもしれない、というよりも単語だけ距離を考慮します
- 注意が最初に2014年に、その後Bahdanauの論文では、画像処理に提案されました
- [1409.0473]ニューラル機械翻訳共同合わせて、翻訳を学ぶことでhttps://arxiv.org/abs/1409.0473を
注目の計算:
(Bahdanauらによって提案された。)配向モデル
- calc01.png
位置関数(位置合わせ機能)単語がY_IはX - jがと一致する方法もE判定された場合
著者は、フィードフォワードネットワークから取得した関連する重み行列を使用しました
-
- 我々は、共同で提案されたシステムの他のすべてのコンポーネントを用いて訓練されたフィードフォワードニューラルネットワークとしてアライメントモデルAをパラメータ
したがって、我々は変更することができる一点は、ここにいくつかの古典的な方法を提供し、電子機能です。
Bahadanauの中毒性の注意:
-
乗法の注意
-
- それは行列の乗算を使用して、より効率的に実装することが可能と乗法注意が実際にはより速く、よりスペース効率に優れているが、添加剤と乗法の注目は、複雑で類似しています。
- http://ruder.io/deep-learning-nlp-best-practices/index.html#fn35
中毒性の注意
-
- 添加剤の注意は、より大きな寸法のために良好に動作します
- http://ruder.io/deep-learning-nlp-best-practices/index.html#fn35
場所ベースの機能:
-
- 唯一の入力位置に基づいて計算。
- 注意ベースのニューラル機械翻訳への効果的アプローチhttps://www.aclweb.org/anthology/D15-1166
スケーリング機能:
-
- スケーリングが派生後方伝播の問題に対処するために使用されている注目の重量が大きすぎると、トレーニング中に微調整することは困難です
- [1706.03762]注意はあなたが必要とするすべてであるhttps://arxiv.org/abs/1706.03762
選択基準の違い:
-
ソフトの注意(すべての状態を考慮し、パラメータ化)およびハード注意(のみモンテカルロ確率的サンプリングを使用して、最も関連性の高い状態を選択します)
-
- ハード注目の欠点:非微分
世界的に注目(すべての状態のアライメント)とローカルの注意(唯一のソースの一部に焦点を当てます)
-
隠れ状態のためのグローバルスコア関数、HTは、現在のデコーダ状態とHSは、推定の下でエンコーダ状態であります
ローカル注意スコア関数
エンコーダ隠れ状態でリミット "ウィンドウの位置を選択してください
エンコーダ隠された状態の影響は、現在の状態と選択した状態との間の距離として消えます
参照:
-
- 注意メカニズム:利点と応用https://www.saama.com/blog/attention-mechanism-benefits-and-applications/
- --global注意と地元の注意を読んでの注意メカニズム- nbawjさんのブログ- CSDNブログhttps://blog.csdn.net/nbawj/article/details/80551404
- モデルの要約24--綿密な研究注意メカニズムの詳細:原則、分類およびアプリケーション-知っているほとんどhttps://zhuanlan.zhihu.com/p/31547842
地元の関心は一種のハード注意の似ています
自己の注意:
階層モデル:
-
- 16HLT階層-注目networks.pdf https://www.cs.cmu.edu/~hovy/papers/16HLT-hierarchical-attention-networks.pdf
メモリのメカニズムと注意メカニズムの違いは?
-
- Facebookはそれはまた、関心の一種だ、階層メモリである2015年に有名なメモリアーキテクチャを提案しました。
- メモリー・メカニズムを導入する2本の論文
- https://arxiv.org/abs/1410.3916
- https://arxiv.org/abs/1503.08895
モーダルUNDER:
参照: