RNN-LSTM

1 対 1: 画像分類 画像分類

1 対多: 写真を見て、画像のキャプションについて話します。

多対一: 感情分析 感情分類/音楽分類

多対多: シーケンスからシーケンスへの機械翻訳

多対多: 言語モデル/NER タグ付け

RNN

構造: 入力 x と隠れ状態 h のみ

再帰、RNN はチェーン構造で、各タイム スライスは同じパラメーターを使用します。

入力としてシーケンスを取り、シーケンスの進化方向に再帰します

時間次元では深層学習モデルであり、1文が100語の場合、RNNの深さは100となり、さまざまなサイズの文を扱うことができます。

アドバンテージ

  • 任意の長さの入力を処理できます
  • モデルのサイズは入力の長さによって変化しません
  • 過去の履歴データを計算する
  • ウェイトシェアリング

欠点

  • 計算が遅い
  • 短期的な情報に敏感で、長期的な依存がない

深層学習 (特に RNN) の分野では、「長期依存」の問題が遍在しています。長期依存の理由は、ニューラル ネットワークのノードが計算の多くの段階を通過するときに、以前の比較的長いタイム スライスの機能がカバーされているためです。

勾配消失と勾配爆発は、RNN モデルのトレーニングを悩ませる主な理由の 1 つです. 勾配消失と勾配爆発は、RNN の重み行列の循環乗算によって引き起こされます. 同じ関数の複数の組み合わせは、極端な非線形動作につながります.

勾配爆発/勾配消失

BPTT(時間による逆伝播)

質問

ノルムが1未満の場合、勾配は消えます

ノルムが 1 より大きい場合、勾配は爆発します。

の解き方?

勾配爆発

勾配爆発の勾配クリッピング

勾配が特定のしきい値より大きい場合は、手動で減らします (しきい値を設定します)。

グラデーションが消える、解決するのは簡単ではありません

LSTM

長期短期記憶 長期短期記憶 - 時系列データに関連するタスクの処理

構造: メモリ情報 c + 隠れ状態 h

1.セル状態ユニット状態

ベルトコンベア上の情報は、忘却ゲートと入力ゲートによって制御されます

2. ゲートを忘れる ゲートを忘れる f(t)

ベルトコンベア上の情報を忘れる必要があるかどうかを判断する

3. 入力ゲート 入力ゲート i(t)

文脈情報を考慮して忘却を選択し、文脈性を考慮しないことの内積

4. 出力ゲート 出力ゲート o(t)

1 つの出力、2 方向に分割 (1 つは次のユニットの入力として、1 つは LSTM の出力値として)

目的: 情報の選択的な保持と抽出

アドバンテージ:

勾配消滅爆発は防げますが、100%保証されているわけではありません

RNN よりも長い時系列データを取得できます

LSTM 導関数:

  • Stacked LSTM: 複数の LSTM がスタックされています。
  • CNN LSTM: CNN 画像処理、LSTM テキスト生成
  • Encoder-Decoder LSTM: seq2seq モデルの Encoder-LSTM、Decoder-LSTM
  • Bidirectional LSTM: Bidirectional LSTM、長期依存の問題を解決

双方向 LSTM

双方向: 上記の情報だけでなく、以下の情報にも基づく

一般に単方向 LSTM よりも精度が高く、音声モデルに使用できます

RNN/LSTM/Bi-LSTM

RNN には勾配消失現象がある: 昔の情報は取り込めない
LSTM は過去の情報しか取り込めない

Bi-LSTM は過去だけでなく未来もキャプチャできます

おすすめ

転載: blog.csdn.net/weixin_46489969/article/details/125572721