RNNリカレントニューラルネットワークの知識

リカレントニューラルネットワークが有効である
リカレントニューラルネットワークの様々な、我々は始まる基本的なリカレントニューラルネットワークの最も単純で始まります。

基本循環ニューラルネットワーク
以下は、入力層、中間層とからなる出力層からなるニューラルネットワーク、などの単純なループです。
ここに画像を挿入説明

ナニ?私は私が崩壊するように、私はこのようなものの内側と読者を見たのは初めてと考えています。リカレントニューラルネットワークはあまりにもハードまで描かれているので、オンライン、この技術を用いて抽象芸術に持っていたすべての偉大な神。ただし、停止し、詳しく見ていく、それが実際によく理解されています。その上にWが取り除か矢印と円がある場合、それはなり、最も一般的に完全に接続されているニューラルネットワークXが表すベクトルであり、入力層の値(ニューロンノードを表すが塗らないれる円)を、Sが表すベクトルであり、隠された層の値(ここではノードの隠れ層を集め、これを想像することができ実際には、一つのノード、同じベクトルs寸法のノード)が複数であり; Uは、入力隠された層の重み行列(の第三の記事に戻ることができ、リーダゼロベースのエントリ深度研究(3)の層である-ニューラルネットワークおよび抗伝播アルゴリズムは、我々は、行列演算が完全に接続されたニューラルネットワークを表した方法を見て)、Oは出力層を表すベクトルであり、Vは、出力層の重み行列に隠された層の重量です。まあ、今ではのを見てみましょうWですニューラルネットワークサイクルの値の中間層は、現在の入力xだけでなく依存し、S時間も隠れ層の値に依存します。重み行列Wは、この時間を再入力する右側の値として隠された層の一つです。

我々は上記のチャートを展開すると、リカレントニューラルネットワークはまた、このような外観を塗装することができます:
ここに画像を挿入説明
双方向リカレントニューラルネットワーク
、次の文は、例えば、十分な言語モデルのため、多くの場合、単語の前に見ていないです。

私の携帯電話が壊れている、私は新しい携帯電話____に行きますよ。

その後、私はするつもりだった、我々は水平単語の前を見れば、携帯電話が壊れている、想像修復修理を?変更し、新しいものを?それとも大きな叫びが一致しますか?これらは、決定することは不可能です。しかし、我々はまた、言葉の背後にある水平線を見るならば、「新しい携帯電話、」、はるかに大きいの「買い」の水平ラインフィル確率の言葉です。

:このモデルの前のセクションでは、ニューラルネットワークの基本的なサイクルは、以下のように我々は、双方向リカレントニューラルネットワークを必要とし、そのため、ではない
ここに画像を挿入説明
ベクトル化
できるようにするために、我々は、ニューラルネットワークの入力と出力がベクトルであることを知っています言語モデルは、ニューラルネットワーク処理することができ、我々はそれを処理するための発現ベクターは、そのようなニューラルネットワークの形で単語を配置する必要があります。

言葉は、私たちは、次の手順を使用してベクトル化を入力することができますされたニューラルネットワークを入力します。

すべての単語、一意の番号を持っている辞書内の各単語を含む辞書を構築します。
ワードは、N次元表現すると、任意のワンホットベクターであってもよいです。ここで、Nは、辞書に含まれる単語の数です。:辞書に単語iの番号が付けられ、vは単語のベクトルで、Vjが、その後、ベクトルのj番目の要素であると仮定
ここに画像を挿入説明
このメソッドを使用し定量化するために、我々が得る高次元のスパース(ベクトルをスパースをそれはゼロである要素のほとんどの値を意味します)。私たちのニューラルネットワークにつながるようなベクトル処理は、大量の計算をもたらし、多くのパラメータがあります。そのため、多くの場合、あなたは、いくつかの次元削減方法、密な低次元のベクトルに高次元のスパースベクトルを使用する必要があります。

言語モデルに必要な出力は次の最も可能性の高い単語である、我々は辞書中の各単語のリカレントニューラルネットワークの計算を行うことができます単語の最大確率は次の最も可能性の高い単語であるように、次の単語の確率です。このように、ニューラルネットワークの出力ベクトルはN次元のベクトルであり、辞書に対応するワードに対応する各ベクトル要素は、ワード確率です。下図のように:
ここに画像を挿入説明

ソフトマックス層

先に述べたように、言語モデルは、単語のモデル化の発生確率です。だから、どのように確率的ニューラルネットワークの出力にそれを作るには?この方法は、ニューラルネットワークのソフトマックス出力層として層を使用することです。

ソフトマックス関数の定義で見てみましょう:
ここに画像を挿入説明
この式は、我々は例をあげ、かすかに見えるかもしれません。ソフトマックス層の下に示すように:
ここに画像を挿入説明
我々は、図から見ることができ、入力ソフトマックス層はベクトルであり、出力ベクトルは一次元である、2つのベクターは、(この例では4である)と同じです。出力ベクトルy = [0.03 0.09 0.24 0.64]に上記ソフトマックス関数演算後ソフトマックス層後の入力ベクトルX = [1 2 3 4]、 。計算は次のとおりです。
ここに画像を挿入説明
出力特徴ベクトルyで見てみましょう:

各値は、0と1の間の正の数であり、
2 1はすべての項目の合計です。

私たちは、簡単にこれらの機能を見つけることができると確率は同じであるので、我々は確率としてそれらを置くことができます。言語モデルについて、私たちは言葉の確率は辞書の最初の単語で予測することは次のモデルを考慮することができることは0.03、辞書内の2番目の単語は0.09、などである確率です。

公開された42元の記事 ウォンの賞賛3 ビュー6132

おすすめ

転載: blog.csdn.net/weixin_41845265/article/details/104300583