1 対 1: 画像分類 画像分類
1 対多: 写真を見て、画像のキャプションについて話します。
多対一: 感情分析 感情分類/音楽分類
多対多: シーケンスからシーケンスへの機械翻訳
多対多: 言語モデル/NER タグ付け
RNN
構造: 入力 x と隠れ状態 h のみ
再帰、RNN はチェーン構造で、各タイム スライスは同じパラメーターを使用します。
入力としてシーケンスを取り、シーケンスの進化方向に再帰します
時間次元では深層学習モデルであり、1文が100語の場合、RNNの深さは100となり、さまざまなサイズの文を扱うことができます。
アドバンテージ
- 任意の長さの入力を処理できます
- モデルのサイズは入力の長さによって変化しません
- 過去の履歴データを計算する
- ウェイトシェアリング
欠点
- 計算が遅い
- 短期的な情報に敏感で、長期的な依存がない
深層学習 (特に RNN) の分野では、「長期依存」の問題が遍在しています。長期依存の理由は、ニューラル ネットワークのノードが計算の多くの段階を通過するときに、以前の比較的長いタイム スライスの機能がカバーされているためです。
勾配消失と勾配爆発は、RNN モデルのトレーニングを悩ませる主な理由の 1 つです. 勾配消失と勾配爆発は、RNN の重み行列の循環乗算によって引き起こされます. 同じ関数の複数の組み合わせは、極端な非線形動作につながります.
勾配爆発/勾配消失
BPTT(時間による逆伝播)
質問
ノルムが1未満の場合、勾配は消えます
ノルムが 1 より大きい場合、勾配は爆発します。
の解き方?
勾配爆発
勾配爆発の勾配クリッピング
勾配が特定のしきい値より大きい場合は、手動で減らします (しきい値を設定します)。
グラデーションが消える、解決するのは簡単ではありません
LSTM
長期短期記憶 長期短期記憶 - 時系列データに関連するタスクの処理
構造: メモリ情報 c + 隠れ状態 h
1.セル状態ユニット状態
ベルトコンベア上の情報は、忘却ゲートと入力ゲートによって制御されます
2. ゲートを忘れる ゲートを忘れる f(t)
ベルトコンベア上の情報を忘れる必要があるかどうかを判断する
3. 入力ゲート 入力ゲート i(t)
文脈情報を考慮して忘却を選択し、文脈性を考慮しないことの内積
4. 出力ゲート 出力ゲート o(t)
1 つの出力、2 方向に分割 (1 つは次のユニットの入力として、1 つは LSTM の出力値として)
目的: 情報の選択的な保持と抽出
アドバンテージ:
勾配消滅爆発は防げますが、100%保証されているわけではありません
RNN よりも長い時系列データを取得できます
LSTM 導関数:
- Stacked LSTM: 複数の LSTM がスタックされています。
- CNN LSTM: CNN 画像処理、LSTM テキスト生成
- Encoder-Decoder LSTM: seq2seq モデルの Encoder-LSTM、Decoder-LSTM
- Bidirectional LSTM: Bidirectional LSTM、長期依存の問題を解決
双方向 LSTM
双方向: 上記の情報だけでなく、以下の情報にも基づく
一般に単方向 LSTM よりも精度が高く、音声モデルに使用できます
RNN/LSTM/Bi-LSTM
RNN には勾配消失現象がある: 昔の情報は取り込めない
LSTM は過去の情報しか取り込めない
Bi-LSTM は過去だけでなく未来もキャプチャできます