DAY2 - RNNニューラルネットワークの学習ノート

完全に接続されたニューラルネットワークと畳み込みニューラルネットワークは、彼らが唯一の前回入力した後、1によって単一入力プロセス1を取ることができ、入力は完全に無関係です。しかし、いくつかのタスクシーケンスを処理することができ、より良い情報、すなわち、入力と関係があり、後者の入力フロントする必要があります。私たちは、文の意味を理解するとき、例えば、この文のすべての単語を理解して孤立十分ではありません、我々はこれらの言葉の全配列に対処する必要が一緒に接続されており、私たちはビデオを扱うとき、私たちは一人で行くことができません各フレームを解析し、フレームのシーケンス全体が一緒に接続されて分析します。この時点で、あなたは勉強の被写界深度を使用する必要があるニューラルネットワークの別のタイプに重要です:リカレントニューラルネットワーク(再発
ニューラルネットワーク)。

RNNは、多くの場合、文の意味を理解するために、コンピュータの言語シーケンスを処理し、意味は私たちが望む結果を達成するために理解する前と後のテキストに応じてで使用します。

基本循環ニューラルネットワーク
以下は、入力層、隠れ層及び出力層からなるニューラルネットワーク、などの単純なループである:
ここに画像を挿入説明
図は完全に接続されたニューラルネットワークとして実装見ることができるが、隠された層の出力に出力値がノードに格納されているときに撮影した、これは、次の隠れ層に訓練入力の出力値と現在の値をこの計算を行うための入力を形成し、次いで、電流出力が提供するときに、出力ノードに格納されます次回の使用。
ここに画像を挿入説明

上图为每一次训练的过程,每次训练都会将输出作为下一次输入的参数,由此可提取出公式:

ここに画像を挿入説明
式1式は出力層であり、出力層は、すなわち、そのノードの各々、完全に接続された層であり、各ノードは、隠された層に接続されています。Vは、出力層の重み行列であり、Gは、活性化関数です。式2は、層が環状である隠された層、で計算されます。Uは、入力X重量重み行列であり、WがS(T-1)の最後の値は、重み行列の重みと今回入力され、Fは、活性化関数です。

ここに画像を挿入説明

しかし、上記により定義する単純だけ一方向ネットワーク文のニーズが前後のテキストの意味に従って定義されるので、RNNは有用十分ではないではなく、双方向の円形ニューラルネットワークは、このようにある
ここに画像を挿入説明
出力情報は、2つのノードを格納する必要が前記、およびA`、前進推進のための1つ、後進推進のための1つ、最終的な出力は、テキストに従う同一の意味を有する単語を有する2つのストレージノードに依存します。
ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
順方向伝搬(黒矢印方向)

入力x、

隠れ層:LY1 =シグモイド(X * W0)+ pre_ly1 * Whを、

2つの部分から成り、1重量部の入力値であり、次いで、活性化関数を介して(シグモイドは、本明細書に一時的に使用表される)、他の部分は、フロント層で隠された結果の状態が保存されます。

出力層:LY2 =シグモイド(LY1 * W1)、

活性化関数によって得られた隠れ層と出力重み値、からの出力を乗算します。

バックプロパゲーション手順(赤矢印方向)

Yの実際の値、出力層LY2の出力の予測値、両方の差:Y-LY2 = ERR、算出された総誤差のErr = 1/2(Y-LY2)^ 2、二乗誤差です。次のステップは、連鎖ルール誘導体、誤差逆伝播を使用することで、まず、最新のエラーLY2からの出力は、のErr偏導関数LY2を得るために計算されます。

delta_ly2 =(Y-LY2)*シグモイド '(LY2)、

この関数はシグモイドLY2誘導体であることに注意してください。そしてYは、LY2は= ERR、ERR = delta_ly2ようシグモイド(LY2)、次の隠れ層エラーが計算され、それは図からわかるように、2つのエラーがある隠された層の上の逆パスは、一つは隠れ状態の後でありますエラー層(次の状態ニーズにバックプロパゲーションは、前の状態に戻る):next_ly1 delta_ly1 delta_ly2 = Whを、他方は出力層誤差渡されるW1のシグモイド「(LYI)

この式は、各ステップは、エラーの前のステップを乗じた現在の誤差を計算する必要があり、連鎖ルールに由来するので、その後シグモイド= LY2(LYIためdelta_ly2が、存在することのW1)は、連鎖ルールによるとLY2を計算します誘導体LYIはW1得る singmoid「(LYIを)。

完全に接続されたバックプロパゲーションに類似するが、伝搬隠れ層における対向伝搬の影響の導入後。

配列は、機能の喪失は、指数関数であるので、パラメータの値を増加または減少につながる可能性があり、長すぎる爆発勾配または勾配が消滅しやすい大きすぎる一方、爆発は、勾配または勾配の消失が発生しました。

ベクトル化ワード
ニューラルネットワークの入力が単語である、私たちは、次の手順を使用してベクトルを入力することができます。

図1は、すべての単語、一意の番号を持っている辞書内の各単語を含む辞書を作成します。
図2は、単語が表現するN次元を有する任意のワンホットベクターであってもよいです。ここで、Nは、辞書に含まれる単語の数です。ワンホットベクトルのワード数、位置1が配置され、残りの位置は0であり
ここに画像を挿入説明、この方法は、定量化するために使用して、我々は(高次元の疎ベクトルを取得疎要素のほとんどの値を指しそれは)0です。これは、次元を減らすために、特別な方法が必要です。
ソフトマックス確率関数は、次の項を計算するために使用され、
ここに画像を挿入説明
トレーニングモデルの
トレーニングモデルは、訓練を受けた後、文のセグメンテーションモデルに配置する必要があり、前に単語を入力し、[ラベル試験として、単語の後

ここに画像を挿入説明

公開された17元の記事 ウォンの賞賛1 ビュー3427

おすすめ

転載: blog.csdn.net/weixin_43983570/article/details/105169312