注目の概要II:
紙を含みます:
- 表示、出席し教える:ニューラルイメージ字幕生成をビジュアルAttentio(用了ハード\柔らかい注意注意)と
- 効果的なのは、アテンションベースのニューラル機械翻訳(提出了グローバル\ローカル注意)へのアプローチ
この記事を参考記事:
注意-ビスは
5つの注意がモデルとその応用を理解していた
の注目モデルのアプローチの概要
--global注意と地元の注意を読んで注意のメカニズムを
、(株)無料アテンション/ローカル注意しよう
この記事の概要
- 注意メカニズム不可欠アイデア
- 各注意メカニズム(ハード\ソフト\グローバル\ローカルの注意を)要約
- その他の注意関連
1つの注意は、基本的にイデオロギー的メカニズムであります
基本的な考え方は、以下を参照してくださいこの記事を、この記事では、自己注目と言いました。
短い答えは、それは同じである機械翻訳のキー値での注意(クエリ、キー、値)です。
PS:基本的な考え方の適用における注意NMTメカニズム、紙まとめたものでを参照してください。要約Attentin
注目の2すべての種類
その他の注意について話すこと:
- ハード注意
- ソフトの注意
- gloabal注意
- 地元の注意
- 自己注意:ターゲット=ソース - >マルチヘッド注目 - (注意放電要約C)
2.1ハード注意
ペーパー:ショー、出席し知らせる:.注視ニューラルイメージの字幕生成
出典:モデルアプローチの注目のまとめ
すべてのコンポーネントを維持するためのソフト注意が重み付けされ、ハード注意がコンポーネントを選択した戦略の一環です。ハード注意が一部懸念しています。
普及にその後訓練へのソフトの注意。
ハード注意的特点:
ハード注意モデルが微分不可能であり、そのような電車に分散減少や強化学習などのより複雑な技術が必要
特定
CNN(VGGネット)を使用してエンコーダモデルは、L次元ベクトルを抽出D画像は、iは1,2 =愛... L、各ベクトルは、画像情報の一部を表します。
デコーダはLSTMは、入力当たりのTタイムステップは、3つの部分から構成され:ZT、HT-1、YT -1。ここでZTとαtiから入手aiを。
注意モデルFによってαti ATTを計算します。
Fは、ここでのatt A多層パーセプトロンである:
それはZTを計算することができ
、F注意モデルを特徴とATT確率的な注意と決定論的な注意:GET 2つの方法があります。
2.1.2確率「ハード」注意
ST Tは、注目焦点位置番号デコーダの時間である時間tにおける注目位置の注意がI、STIは、iは1,2 =、かどうかを示すSTI ... Lは、[ST1、ST2、... STL]はワンホットエンコーディングであります、練習の注意時のフォーカス位置は、ハードの源です。
=(A1、A2、...に係るモデル AL)はシーケンスyを生成する(Y1を、...、YC) 、S、 ここでa = {S1、S2、...のsC }は、 理論的にはL ^ C、時間軸上のキーフォーカス配列でありますA。
PS:深い学習思考:研究目的関数は、目的関数の勾配パラメータを研究しています。
、目的関数の下限取得するために、目的関数(明示的なsが存在しないため)変換を行うために|目的関数()を最大のlogP(Y)に有名なジェンセンの不平等を使用し
、その後LOGP(Y |)代わりに、元の目的関数の勾配の計算モデルパラメータWを、次いでモンテカルロサンプリング方法は、Sを行います。
強化学習に関わる詳細があります。
2.1.3決定論「ソフト」注意
全体モデルは、利用可能なチェーンルールに従って、平滑化および微分可能であるαti右LSTM重量の目的関数である微分(すなわち、目的関数、理由は非常に単純であり、ZT微分の目的関数から、及びαti微分のZTであります決定論的な注意下)αti目的関数の微分可能なので、エンドツーエンドを学ぶことは、標準的なバックプロパゲーションを使用して簡単です。
ハード注意の内部では、各モデルの時間tのシーケンスは[ST1、... STLは]のみ1を取り、すべての残りの部分は、焦点位置で時間0であり、位置のすべてに各ソフトの注目の世話をします、異なる場所でちょうどいい重さは異なります。ZTは、AIの加重和であります:
ファイン:、
LSTM HT-1と特異重力YT-1に対するコンテキストベクトルを調整するために使用されます。
2.1.4訓練プロセス
電車にSGD(確率的勾配降下法)を使用して、注目モデルの二種類。
2.2グローバル/ローカルの注目の論文
论文:効果的なのは、アテンションベースのニューラル機械翻訳へのアプローチ
参考Notesから:
論文計算コンテキストベクトル:
H T - > T - > C T - > H 〜T
世界的に注目
すべての隠された状態のエンコーダが生成されたときに計算コンテキストベクトルCTで世界的に注目を考えます。
要約注意注意の点で世界的に注目が似ていますが、単純である、見ることができます。2つの違いは、参照することができ、この記事、すなわち図注:
])
目標隠された時間tが全て隠された状態HTでデコーダ呼ば、エンコーダは、H 〜S、S = 1,2、... N - 。これが呼び出されます。注意隠れ状態。
任意の時間〜S、重量A T(S)は、可変長配向ベクトルであり、長さは、時系列のエンコーダ部の長さに等しいです。電流比較によって隠れデコーダ層Hの状態TおよびHエンコーダ隠れ層STATUSの各〜Sが得られます。
T(S)が得られた状態比較のデコーダ及びエンコーダの状態です。
:スコアは、コンテンツ・ベースの機能であり、紙は(アライメント機能と呼ばれる物品)は、3つの様々な計算方法を与える
に:より良い世界の注目点、より良いローカル注目の汎用。
別の唯一H Tスコアのすべての方法AであるT(S)、ワシントン州を得るために、重み行列に統合されてAを算出することができるT。
一対のT加重平均操作(Hせる〜S加重合計)は、コンテキストベクトルCを得ることができるT、次のステップに進みます
図世界的に注目のプロセス:
ローカル注意
各デコーダの必要性の状態の計算で世界的に注目は、すべてのエンコーダ入力、計算のより大きな量に焦点を当てます。
ローカル注目は、その計算の複雑さ、(利点を混合)ハード注意およびソフト注目の混合物と考えることができるグローバルな注意、ソフト注目よりも低く、ほとんどどこでも微分ハード注意、ローカル注目異なります、電車に簡単に。
ローカル注意が小さなウィンドウ(焦点源位置毎時間小さな部分のみ)、計算コストを低減することができる選択コンテキストのメカニズムに焦点を当てています。
このモデルでは、各時間T語彙モデルの目標は、最初の整列位置(整列位置)Pを発生させるTを。
コンテキストベクトルC T隠れ層計算状態設定点でエンコーダによっては、隠されたレイヤエンコーダは[Pウィンドウを含むT -D、P T + D]、サイズDは、経験的に選択されます。
CこれらのモデルTを下に要約するように形成されたが、異なるグローバルLOCATION VS。
Pバックローカル注意、Tはソース位置指標、モデルのパラメータと同様に理解されるであろう注目の焦点です。P Tは、 2つの計算プログラムの計算値:
- 単調alingnment(ローカル-M)
集合P T = T、ソース配列および標的配列が単調に実質的に整列することを想定し、次いで配向ベクトルA Tは、として定義することができます。
- 予測アライメント(ローカル-P)
モデルではなく、ソースおよびターゲット配列単調配列アラインメントと仮定しての、アライメントの位置を予測します。
W p型とV P- BEモデルパラメータは、訓練を通じて位置を予測します。Sは、ソース文の長さ、この計算、PであるT ∈[0、S]。
支持体PのにTアライメント点近傍を周囲にPが設けられているTアラインメント重みが(S)αTように、ガウス分布のように表すことができる:
ここで同じアライメント機能とアライメント機能のグローバルであり、それはより多くの中央PTからわかります遠隔位置、重みに対応する位置にそのソース隠れ状態は、より重度に圧縮されます。
得られたC Tの時間が後に計算され〜TのベクトルCの接続層コンテキストによって、方法Tと時間T Hに統合〜T:
H 〜T = TANH(WCの[C T、時間T ])
H 〜Tが注目されますベクトル、予測出力ベクトルは、次式の単語分布によって発生する確率:
図地元注意プロセス:
ローカル注意対2.2.1グローバル
そのため、グローバル/ローカルの区別はこれです:
- 前者の配向ベクトルA Tの入力シーケンスの長さのエンコーダ部に応じて可変サイズ;
- コンテキストベクトルTのサイズが固定され、A T ∈R 2D + 1。 ;
世界的に注目し、現地の注意長所と短所、もう少し理由とGlobalの練習:
- エンコーダは、長い計算量ではなく、低下させない現地の注意
- 位置ベクトルP Tの予測は、直接現地注意の精度に影響はなく、非常に正確です
2.2.2入力送りアプローチ
アプローチをinputfeeding:注意のベクトル時間〜tは過去のアライメントの決定についてのモデルを通知するために、次の時間ステップへの入力として供給されています。この効果は2つあり:
- 前回のアライメントの選択のモデルは完全に認識させます
- 私たちは、水平方向と垂直方向の両方にまたがる非常に深いネットワークを作成します
2.2.3本論文では、使用の技術的なポイントを要約したものです。
- グローバル\ローカルの注意、
- 入力送りアプローチ
- より良いアライメント機能
2.2.4紙実現のヒント
概念および技術にかかる時間の実現:
プログレッシブ層次に、このような第1ベースモデルとして、+リバース、+ドロップアウト、+グローバル注意、+フィード入力は、+ UNK交換、 及びその後のスコアが改善の程度を見てください。
逆に、ソース文を逆される
ようにような既知の技術、上方に:ソースの逆転、ドロップアウト、unknowed交換法。
によって統合ドロップアウトを使用することなく、そのような異なる方法を用いて、このような注意として8種類のモデルとして、さまざまな設定を
このような各言語トップ50Kを取るとして語彙のサイズ、
使用される未知語<unk>
の代わりに、
その都度の範囲を埋めるために文、そのような初期設計パラメータのようLSTM層、[-0.1、0.1]は、正規化された勾配が再スケーリングされたノルムが5を超えます。
トレーニング方法:SGD
設計ハイパー:
LSTM層、そのような寸法は、ワード埋め込み、エポック番号、ミニバッチサイズは、例えば128のように、どのように多くの各100cells、単位の数として
、このような1の開始として学習率を変更することができ、 、半体の後、後続の各エポックを5pochs、例えば0.2のようなドロップアウト
8epochsは、学習の速度を半減した後、同様にドロップアウト開始12pochs
実験的解析:
- ルックは、学習曲線の減少しました
- 長い文章の効果
- 注意のアーキテクチャ
- アライメント品質
他の3
3.1注意設計
-
ロケーションベースの注意
ロケーションベース、それを意味し、ここでの注意は、すなわち注意ベクトルがハイテクそのものであり、関心のない他の付加的な目的ではありません。
SI = F(HI)=活性化 (WThi + B) -
一般的な注意(一般的ではありません)
-
連結ベースの注意
連結ベースの意味が、ここで注意が他のオブジェクトに単純にもっと注意です。
そして、HIとHT間の相関関数を測定するために設計されて、F。
SI = F(HI、HT) = vTactivation(W1hi + W2ht + B)
3.2注意拡張
K2ワードからなる文書の文章、K1によって各文章(各文のK1サイズ)。
第一層:注目の単語レベルが
各センテンスに対するk1k1ワードを有し、対応するベクトルは、各センテンス、示さstistiための発現ベクター、その結果、第二章で述べた方法を用いて、k1k1 Wiwiを有します。
第二層:注目の文レベル
第一層の注目することにより、我々は得ることができますk2k2 A stisti、再利用の方法の第二章では発現ベクターで、その結果、前述の各文書は、もちろん、あなたが各stistiを得ることができますディディ重量αiαiに対応する重みは、その後、これらを取得し、特定のタスクを分析します。