[アンドリュー・ウ深度調査]ニューラルネットワークと深い学習が

ニューラルネットワークと深い学習

ディープラーニングの概要

ニューラルネットワークとは何ですか

ニューラルネットワークは、脳の働きが得道に触発効果的な学習アルゴリズムであります

シングルニューラルネットワーク:な住宅エリアとして与えられた1次元データ作成、\(Relu \)住宅価格をマッピングする(整流線形関数)機能を、。

多変量ニューラルネットワーク:キューブの予測、隠れユニットの自動生成、入力および出力データモデルのただ与えられたセットは、学習に自分自身を許します。

ニューラルネットワークの学習を指導し、

不動産価格の予測 標準ニューラルネットワーク
画像認識 コンボリューションニューラルネットワーク\(CNN \)
オーディオ、言語 リカレントニューラルネットワーク\(RNN \)
レーダー信号の認識モデル 複雑なハイブリッドニューラルネットワーク

構造化データ:データベースまたはデータ系列、各機能が明確に定義されています

非構造化データ:音声、画像、テキスト、機能は、テキスト、画像ピクセル値内の単語であってもよく、又は

なぜ、深い学習の人気

  1. 伝統的なパフォーマンスモデルの上限。従来のデータ処理モデルは、データの量を増やすとパフォーマンスを大幅に向上させることができないパフォーマンスの上限に達し、小さいのに適しています
  2. データ量が増加します。従来のモデルでは、大量のデータを処理して適用されていません
  3. 深さの学習モデルのパフォーマンスは、データの量に依存します。より深く学習モデルは、より良いデータ性能を学びます。
  4. 新しいアルゴリズムのアップデートは、計算速度の更新を推進していき、新しいアイデアを出産した速度を計算するためにプッシュ

深い学習能力の成長を促進するためのスケール(スケールモデル、データサイズ)。

ニューラルネットワークインフラストラクチャ

二値分類

例:64 * 64バイナリ画像は、猫、出力1(CAT)または0(ないCAT)か否かを判定する。

コンピュータに格納された画像は、赤、緑、青の輝度画素の三種類の分布に対応し、一般的に3つの64 * 64行列です。

特徴ベクトルにマッピングされた3つの行列\(X- \)大ベクトル1 * 12288(64×64×3 = 12288からなるライン読み取りによりラインにより、各行列の値は、一つ )。\(N = 12288 \)特徴ベクトルの次元を表します。

だから、入力変数の二値特性のロールモデルです\(X \)出力ラベル\(のy \)猫かどうかを予測するためには。

一般トレーニングセットを参照した\(m個\)トレーニングサンプルを、ここで\((X ^ {(1 )}、Y ^ {(1)})\) を表しサンプル入力\(X ^ {(1) } \)出力\(^ {Y(1)} \) 区別するために、トレーニングセットが示されている\(M_ {列車} \)に設定試験(試験m_Low} {\)を\\(Xは=(X ^ { (1)}、X ^ {(2)}、...、X ^ {(M)})\) すべての特性の変数の集合と呼びます。次に\(N-X- * = M \)、*訓練サンプルの数であり、特徴的な寸法

ロジスティック回帰

計算\(\ widehat} = P {Y(Y = 1の|。X)\(0,1)で\) \(X \)は特性可変、与えられ\(X \) パラメータ\(W \) また、ベクター)、パラメータ\(B \)出力(\ \ widehat {Y} = \シグマ(W ^のTx +のB)\) \(\シグマ(Z)が\)される(シグモイド\を\します)機能への出力マップ(0,1))

\ [\ Widehat {Y} = \シグマ(Z)= \ FRAC {1} {1 + E ^ { - } Z} \クワッドZ = Txの+ A ^ Bの\]

損失機能:損失関数は、単一のサンプルに反映され、それは単一のサンプルのパフォーマンスを測定します。以降(L-2 \)\後続勾配降下の最適値を求め、これにNORMパフォーマンスの低下\(ロジスティック\回帰\)使用

\ [L(\ widehat {Y}、Y)= - (ylog \ {Y} +(1-y)のログ(widehat 1- \ widehat {Y}))\]

  • 場合\(1 Yは= \):\は(L(\ {Y}、Y)widehat = - \ \ widehat {Y}をログ)、たい({Y widehat L(\ \ }、Y)\) 可能な限り小さくします、それが必要である(\ \ widehat {Y}をログ \) ため、できるだけ大きく、\(\ widehat {Y}は\ ) の結果である\(シグモイド\)マッピング機能の結果、(0で\ \(\ widehat {Y} 、1)\) そう\(\ widehat {Y} \ ) 真の値に近い大きな
  • 同様\(Y = 0 \):\ ({Y} widehat L(\、Y)= - {Y}は)\ログ(1- \ widehat) あろう\(ログ(1- \ widehat { Y} )\)できるだけ大きく、次いで\(\ widehat {Y} \ ) できるだけ小さいこと

コスト関数:総コストパラメータに基づいて、全体的なトレーニングサンプルの性能を反映しています。

\ [J(W B)= \ FRAC {1} {M} \ sum_ {i = 0} ^ ML(widehat \ {Y} ^ {(I)}、Y ^ {(I)})\]

  • \(m個\)は、学習サンプルの数であります
  • \(L(\ widehat {Y } ^ {(I)}、Y ^ {(I)})\) を表し\を(私は\)損失関数訓練サンプル

の広がりを逆にする前に、

フォワード配列は、伝送の正常計算さ逆順は、誘導体(連鎖ルール)が算出されます

でプログラム\(DVARは\) ガイドの数を示しています

ロジスティック回帰勾配降下

\ [\開始{アレイ} {1} {Z = W ^ {T} X + B} \\ {\帽子{Y} = A = \シグマ(Z)} \\ {\ mathcal {L}(、 Y)= - (Y \ログ(A)+(1-Y)\ログ(1-A))} \端{アレイ} \]

単一のサンプル:2つだけの特徴量、想定\(W =(W_1、W_2)^ T \) 入力\(W_1、X_1、W_2 ,, X_2、B \) 次いで\(Z = w_1x_1 + w_2x_2 + Bを\) 次いで(\ \ widehat = {} A = Y \シグマ(Z)\)の最終的な計算\(L(A、Y)\) \(ロジスティック\)行う回帰変更することである\(W_1、W_2、B \ ) ような値\(L(Y) \) 最低。

ステップ勾配を更新:
\ [\配列{} {}開始{W_ {L} 1:= W_ 1} { - \アルファW_ {D} 1 \\。} {2} {W_:W_ {2} = - \アルファD W_ {2}} \\ {B = B- \アルファ} \端{アレイ} \]

ベクトル化

量子化手順の消去は通常、明示的である(\用)\アートサイクル。およびベクトル演算(\用)\は、サイクルの速度との差がほぼ300倍で計算します。可能な限りの使用を避ける\(\用)のループを!

numpyのライブラリは、ベクトル関数の多くは、構築された(\ w)は\定量化するために、プログラムを呼び出します\(np.zeros()\) トレーニングセット\(X \)とバイアス\(のb \)を定量化するために

Pythonの放送

  1. 以下のような形状を使用しないでください\((N、)\) ランク1のこの配列。使用する(A = np.random.randn(5,1)\ )\ 特定のサイズのこの宣言文を
  2. されている場合は、\((N-、)\) ランク1のこの配列は、リシェイプを使用して変換することができます
  3. 行列の形状を決定するために、アサート文、アサーションを肯定して自由に、タイムリーな検出のバグ

浅いニューラルネットワーク

ニューラルネットワーク表現

入力層、隠れ層及び出力層、入力層は、一般に、標準的なレベルと見なさない、ネットワークの隠れ層から開始する層の数、数学表記数\(^ {[n]は } _ iは\) を表し\(N-を\ )ネットワークの第一層\(私は\)は、ノードを生じます。

出力ニューラルネットワーク

アナログ\(ロジスティック\)計算回帰、\(ロジスティック\)を算出する回帰\を(Z = W ^のTx + B \) 次いで計算\(A = \シグマ(Z {Y} widehat)= \を\ 各ノードのために、ニューラルネットワーク単一の隠れ層である\(^ {[1] } _ iは\)が再計算される(Z ^ {[1] \ } _ I = W ^ {[1] T} _ix + B ^ {[1]} _ iは \)

アクティベーション機能

\(シグモイド\)、\ (TANH \)、\ (Relu \)、\ (漏れRelu \)

関数名 賛否両論
シグモイド ほとんど使用されない他のバイナリ分類に加えて、出力間隔(0,1)は、集中型データに助長されていません
通常のシグモイドよりも中心対称非常に良好なパフォーマンス、
履歴書 デフォルトの活性化機能、非常に友好的勾配降下
漏洩ReLU ReLU勾配を補償する部分未満0~0の問題であるが、めったに使用されません

ランダムな初期化

重み行列は、一般的に0.01適切な重み行列大きすぎるリードするために、大きすぎてはならない\(Z軸\)であり、flattish部分は活性化関数、勾配降下が小さい大きすぎる秋、学習が遅くなります。

DNN

技術的には、\(ロジスティック\)回帰は、単層のニューラルネットワークです。

フォワードスプレッドは、まだ使用する時間です\(用\)のサイクルを。

フロント層は、顔の輪郭として、単純な、より複雑な機能が後に同定できることを認識する請求(\ RIGHTARROW \)\特徴\(\ RIGHTARROW \)面、音素\(\ RIGHTARROW \)ワード\(\をRIGHTARROW \)フレーズ\(\ RIGHTARROW \)

深い学習がブラフされ聞く、コールは前ニューラルネットワークの隠れ層をたくさん持っている置きます。

スーパーパラメータ:コントロールは、実際のパラメータパラメータ

私は、複数の実験を必要とし、最高のスーパーパラメータの値をとり、超直感的な引数を得意とするのか分かりません。形而上学の学習率とスーパーパラメータ。

おすすめ

転載: www.cnblogs.com/ColleenHe/p/11704342.html