ニューラルネットワークと深い学習
ディープラーニングの概要
ニューラルネットワークとは何ですか
ニューラルネットワークは、脳の働きが得道に触発効果的な学習アルゴリズムであります
シングルニューラルネットワーク:な住宅エリアとして与えられた1次元データ作成、\(Relu \)住宅価格をマッピングする(整流線形関数)機能を、。
多変量ニューラルネットワーク:キューブの予測、隠れユニットの自動生成、入力および出力データモデルのただ与えられたセットは、学習に自分自身を許します。
ニューラルネットワークの学習を指導し、
不動産価格の予測 | 標準ニューラルネットワーク |
---|---|
画像認識 | コンボリューションニューラルネットワーク\(CNN \) |
オーディオ、言語 | リカレントニューラルネットワーク\(RNN \) |
レーダー信号の認識モデル | 複雑なハイブリッドニューラルネットワーク |
構造化データ:データベースまたはデータ系列、各機能が明確に定義されています
非構造化データ:音声、画像、テキスト、機能は、テキスト、画像ピクセル値内の単語であってもよく、又は
なぜ、深い学習の人気
- 伝統的なパフォーマンスモデルの上限。従来のデータ処理モデルは、データの量を増やすとパフォーマンスを大幅に向上させることができないパフォーマンスの上限に達し、小さいのに適しています
- データ量が増加します。従来のモデルでは、大量のデータを処理して適用されていません
- 深さの学習モデルのパフォーマンスは、データの量に依存します。より深く学習モデルは、より良いデータ性能を学びます。
- 新しいアルゴリズムのアップデートは、計算速度の更新を推進していき、新しいアイデアを出産した速度を計算するためにプッシュ
深い学習能力の成長を促進するためのスケール(スケールモデル、データサイズ)。
ニューラルネットワークインフラストラクチャ
二値分類
例:64 * 64バイナリ画像は、猫、出力1(CAT)または0(ないCAT)か否かを判定する。
コンピュータに格納された画像は、赤、緑、青の輝度画素の三種類の分布に対応し、一般的に3つの64 * 64行列です。
特徴ベクトルにマッピングされた3つの行列\(X- \)大ベクトル1 * 12288(64×64×3 = 12288からなるライン読み取りによりラインにより、各行列の値は、一つ )。で\(N = 12288 \)特徴ベクトルの次元を表します。
だから、入力変数の二値特性のロールモデルです\(X \)出力ラベル\(のy \)猫かどうかを予測するためには。
一般トレーニングセットを参照した\(m個\)トレーニングサンプルを、ここで\((X ^ {(1 )}、Y ^ {(1)})\) を表しサンプル入力\(X ^ {(1) } \)出力\(^ {Y(1)} \) 、区別するために、トレーニングセットが示されている\(M_ {列車} \)に設定試験(試験m_Low} {\)を\。で\(Xは=(X ^ { (1)}、X ^ {(2)}、...、X ^ {(M)})\) すべての特性の変数の集合と呼びます。次に\(N-X- * = M \)、*訓練サンプルの数であり、特徴的な寸法
ロジスティック回帰
計算\(\ widehat} = P {Y(Y = 1の|。X)\(0,1)で\) 、\(X \)は特性可変、与えられ\(X \) 、パラメータ\(W \) (また、ベクター)、パラメータ\(B \)、出力(\ \ widehat {Y} = \シグマ(W ^のTx +のB)\) (\(\シグマ(Z)が\)される(シグモイド\を\します)機能への出力マップ(0,1))
\ [\ Widehat {Y} = \シグマ(Z)= \ FRAC {1} {1 + E ^ { - } Z} \クワッドZ = Txの+ A ^ Bの\]
損失機能:損失関数は、単一のサンプルに反映され、それは単一のサンプルのパフォーマンスを測定します。以降(L-2 \)\後続勾配降下の最適値を求め、これにNORMパフォーマンスの低下\(ロジスティック\回帰\)使用
\ [L(\ widehat {Y}、Y)= - (ylog \ {Y} +(1-y)のログ(widehat 1- \ widehat {Y}))\]
- 場合\(1 Yは= \):\は(L(\ {Y}、Y)widehat = - \ \ widehat {Y}をログ)、たい({Y widehat L(\ \ }、Y)\) 可能な限り小さくします、それが必要である(\ \ widehat {Y}をログ \) ため、できるだけ大きく、\(\ widehat {Y}は\ ) の結果である\(シグモイド\)マッピング機能の結果、(0で\ \(\ widehat {Y} 、1)\) 、そう\(\ widehat {Y} \ ) 真の値に近い大きな
- 同様\(Y = 0 \):\ ({Y} widehat L(\、Y)= - {Y}は)\ログ(1- \ widehat) 、あろう\(ログ(1- \ widehat { Y} )\)できるだけ大きく、次いで\(\ widehat {Y} \ ) できるだけ小さいこと
コスト関数:総コストパラメータに基づいて、全体的なトレーニングサンプルの性能を反映しています。
\ [J(W B)= \ FRAC {1} {M} \ sum_ {i = 0} ^ ML(widehat \ {Y} ^ {(I)}、Y ^ {(I)})\]
- \(m個\)は、学習サンプルの数であります
- \(L(\ widehat {Y } ^ {(I)}、Y ^ {(I)})\) を表し\を(私は\)損失関数訓練サンプル
の広がりを逆にする前に、
フォワード配列は、伝送の正常計算さ逆順は、誘導体(連鎖ルール)が算出されます
でプログラム\(DVARは\) 、ガイドの数を示しています
ロジスティック回帰勾配降下
\ [\開始{アレイ} {1} {Z = W ^ {T} X + B} \\ {\帽子{Y} = A = \シグマ(Z)} \\ {\ mathcal {L}(、 Y)= - (Y \ログ(A)+(1-Y)\ログ(1-A))} \端{アレイ} \]
単一のサンプル:2つだけの特徴量、想定\(W =(W_1、W_2)^ T \) 、入力\(W_1、X_1、W_2 ,, X_2、B \) 、次いで\(Z = w_1x_1 + w_2x_2 + Bを\) 、次いで(\ \ widehat = {} A = Y \シグマ(Z)\)の最終的な計算\(L(A、Y)\) 。で\(ロジスティック\)行う回帰変更することである\(W_1、W_2、B \ ) ような値\(L(Y) \) 最低。
ステップ勾配を更新:
\ [\配列{} {}開始{W_ {L} 1:= W_ 1} { - \アルファW_ {D} 1 \\。} {2} {W_:W_ {2} = - \アルファD W_ {2}} \\ {B = B- \アルファ} \端{アレイ} \]
ベクトル化
量子化手順の消去は通常、明示的である(\用)\アートサイクル。およびベクトル演算(\用)\は、サイクルの速度との差がほぼ300倍で計算します。可能な限りの使用を避ける\(\用)のループを!
numpyのライブラリは、ベクトル関数の多くは、構築された(\ w)は\定量化するために、プログラムを呼び出します\(np.zeros()\) 、トレーニングセット\(X \)とバイアス\(のb \)を定量化するために
Pythonの放送
- 以下のような形状を使用しないでください\((N、)\) 、ランク1のこの配列。使用する(A = np.random.randn(5,1)\ )\ 特定のサイズのこの宣言文を
- されている場合は、\((N-、)\) 、ランク1のこの配列は、リシェイプを使用して変換することができます
- 行列の形状を決定するために、アサート文、アサーションを肯定して自由に、タイムリーな検出のバグ
浅いニューラルネットワーク
ニューラルネットワーク表現
入力層、隠れ層及び出力層、入力層は、一般に、標準的なレベルと見なさない、ネットワークの隠れ層から開始する層の数、数学表記数\(^ {[n]は } _ iは\) を表し\(N-を\ )ネットワークの第一層\(私は\)は、ノードを生じます。
出力ニューラルネットワーク
アナログ\(ロジスティック\)計算回帰、\(ロジスティック\)を算出する回帰\を(Z = W ^のTx + B \) 、次いで計算\(A = \シグマ(Z {Y} widehat)= \を\ )各ノードのために、ニューラルネットワーク単一の隠れ層である\(^ {[1] } _ iは\)が再計算される(Z ^ {[1] \ } _ I = W ^ {[1] T} _ix + B ^ {[1]} _ iは \)
アクティベーション機能
\(シグモイド\)、\ (TANH \)、\ (Relu \)、\ (漏れRelu \)
関数名 | 賛否両論 |
---|---|
シグモイド | ほとんど使用されない他のバイナリ分類に加えて、出力間隔(0,1)は、集中型データに助長されていません |
魚 | 通常のシグモイドよりも中心対称非常に良好なパフォーマンス、 |
履歴書 | デフォルトの活性化機能、非常に友好的勾配降下 |
漏洩ReLU | ReLU勾配を補償する部分未満0~0の問題であるが、めったに使用されません |
ランダムな初期化
重み行列は、一般的に0.01適切な重み行列大きすぎるリードするために、大きすぎてはならない\(Z軸\)であり、flattish部分は活性化関数、勾配降下が小さい大きすぎる秋、学習が遅くなります。
DNN
技術的には、\(ロジスティック\)回帰は、単層のニューラルネットワークです。
フォワードスプレッドは、まだ使用する時間です\(用\)のサイクルを。
フロント層は、顔の輪郭として、単純な、より複雑な機能が後に同定できることを認識する請求(\ RIGHTARROW \)\特徴\(\ RIGHTARROW \)面、音素\(\ RIGHTARROW \)ワード\(\をRIGHTARROW \)フレーズ\(\ RIGHTARROW \)文
深い学習がブラフされ聞く、コールは前ニューラルネットワークの隠れ層をたくさん持っている置きます。。
スーパーパラメータ:コントロールは、実際のパラメータパラメータ
私は、複数の実験を必要とし、最高のスーパーパラメータの値をとり、超直感的な引数を得意とするのか分かりません。。形而上学の学習率とスーパーパラメータ。。。