2019年までの技術の方法のNLP_stateの注目モジュールの自然言語処理の要約注目機構(更新)

2019年までの技術の方法のNLP_stateにおける注意モジュールの概要

  • まず、(2015)「共同合わせ、翻訳を学ぶことにより、ニューラル機械翻訳」で提案されています。しかし、もっともともとコンピュータビジョン分野インチ
  • デコーダ隠れ状態の一部を構成するために、エンコーダ/デコーダ隠れ層の線形結合の重みをCALC

我々は注意モデルを必要とする理由:

    • オリジナルNMTは、長い文章で情報をキャプチャすることができませんでした
    • RNN、又はエンコーダ・デコーダ構造は、長期記憶の問題に対処するために提案されました
    • しかし、エンコーダ・デコーダは、まだテスト段落は非常に長くなることながら、修正長隠れ状態は無限の情報を保存することができないので、非常に長い文章の問題を持っている(入力することができ、Googleの翻訳で5000語)。Bahdanauコンテキストベクトルの計算は、発電性能のボトルネックになり得ることを示しました。
    • また、近くに文章中の情報は、私たちが口座に単語や文章の間に関連性を考慮する必要があることを意味遠く1、より重要ではないかもしれない、というよりも単語だけ距離を考慮します
    • 注意が最初に2014年に、その後Bahdanauの論文では、画像処理に提案されました
    • [1409.0473]ニューラル機械翻訳共同合わせて、翻訳を学ぶことでhttps://arxiv.org/abs/1409.0473を

注目の計算:

  • (Bahdanauらによって提案された。)配向モデル

    • calc01.png
  • EXP(Aijを)Oij eaj

  • 位置関数(位置合わせ機能)単語がY_IはX - jがと一致する方法もE判定された場合

  • 著者は、フィードフォワードネットワークから取得した関連する重み行列を使用しました

    • 我々は、共同で提案されたシステムの他のすべてのコンポーネントを用いて訓練されたフィードフォワードニューラルネットワークとしてアライメントモデルAをパラメータ
    • IMG
  • したがって、我々は変更することができる一点は、ここにいくつかの古典的な方法を提供し、電子機能です。

  • Bahadanauの中毒性の注意:

    • あるいは、コンピュータ生成されたテキスト:左心室のRE @、= TANH(ワシントン州[ST; HT])
  • 乗法の注意

  • 中毒性の注意

  • 場所ベースの機能:

  • スケーリング機能:

    • IMG
    • スケーリングが派生後方伝播の問題に対処するために使用されている注目の重量が大きすぎると、トレーニング中に微調整することは困難です
    • [1706.03762]注意はあなたが必要とするすべてであるhttps://arxiv.org/abs/1706.03762
  • 選択基準の違い:

    • ソフトの注意(すべての状態を考慮し、パラメータ化)およびハード注意(のみモンテカルロ確率的サンプリングを使用して、最も関連性の高い状態を選択します)

      • ハード注目の欠点:非微分
    • 世界的に注目(すべての状態のアライメント)とローカルの注意(唯一のソースの一部に焦点を当てます)

      • 隠れ状態のためのグローバルスコア関数、HTは、現在のデコーダ状態とHSは、推定の下でエンコーダ状態であります

      • コンピュータで生成された代替テキスト:EXP(スコア:@ HS))ホル、EXP(スコア@、))

      • ローカル注意スコア関数

      • エンコーダ隠れ状態でリミット "ウィンドウの位置を選択してください

      • IMG

      • エンコーダ隠された状態の影響は、現在の状態と選択した状態との間の距離として消えます

      • IMG

      • 参照:

    • 地元の関心は一種のハード注意の似ています

  • 自己の注意:

  • 階層モデル:

  • メモリのメカニズムと注意メカニズムの違いは?

  • モーダルUNDER:

  • 参照:

おすすめ

転載: www.cnblogs.com/joezou/p/11247974.html