基本的な概念と分類ニューラルネットワーク:深い学習の一つで

まず、深い学習の概念

1.学習の深さとは何ですか

ディープ学習(ディープラーニング)は機械学習の一形態であり、人工ニューラルネットワークの概念が始まりました。多層パーセプトロン学習の複数の隠れ層を含有する深い構造です。属性カテゴリは、特性データの分散表現を見つけるために、深い学習やハイレベルの低レベルの特徴の組み合わせにより形成された、より抽象的な特徴を示しています。それは、彼らのモチベーションを構築することです、機械学習の研究の新しい分野で、人間の脳のメカニズムは、データを解釈するためにどの模倣、ニューラルネットワークの学習を分析するために、人間の脳をシミュレートします。

 

2.基本変換(レイヤの概念)

ニューラルネットワークは、それぞれ正確に何を行うには、その後、層ごとに構築されますか?

  • 数式:\ {Y}を開始する(時刻\ W \開始{X} + {B}を)=前記開始\ {X}入力ベクトルであり、開始\ {S}出力ベクトルは開始\ {B}、オフセットベクトルであるW重み行列であり、()活性化関数です。各層は、入力され\ BfのX得るような簡単な操作後Yの事\
  • 数学的には理解さ:入力空間を完了するために、次のように操作入力空間(入力ベクトルのセット)の5種類がある - >出力は、(列空間にラインスペースマトリックス)空間変換します。注:「スペース」を使用する理由は、分類されているものの一つの単語が、物事のクラスではありません。スペースはすべての個人、そのようなもののセットです。
    • 1.寸法L /次元削減
    • 2.拡大/縮小
    • 3.電源を入れます
    • 4.翻訳
    • これらの5回の操作では、1,2,3の操作により「曲げ」W \ CDOT \ VEC {X}完成、操作は4とした+ \ {B}を開始5による操作を完了することがされて()達成しました。

線形変換は、他の空間に向かって入力空間を非線形変化を追った。数学的には、各ニューラルネットワークを評価しました。

ニューラルネットワークの学習は、オリジナルの入力空間は、分類/回帰への線形分離/まばらなスペースを投資する変換マトリックスプラス活性化関数の線形非線形変換を使用する方法を学んでいる:リニア視点を分けることができます。 
ノードの数を増やす:増加寸法、すなわち線形変換能力を増加させます。 
層の数:非線形変換の数を増加させるために、すなわち、活性化関数の数を増加させます。

 

3.モデルのトレーニング

   学習プロセスは空間的変換(構成モード)重み行列を制御するための正しい方法を学ぶことになった後、次の質問は、各レイヤ重み行列Wの重みを学習する方法であります ネットワークの予測値が高い場合、現在のネットワークの予測値を比較することにより、我々は、2つの重み行列との間の相違に応じて、実際に標的にしたい、そして、各レイヤの重みを更新する(例えば、それは、より低い予測するために重みを調整しますあなたがターゲットを予測することができるようになるまで、常に)を調整します。したがって必要が定義する関数または式目的関数(損失関数又は目的関数)の喪失であり、「予測値と目標値との差がどのように」、予測値と目標値との差を測定するために使用されます。損失関数(損失)以上の出力値より大きい差。ニューラルネットワークを訓練することはもちろん可能な限り狭く損失となります。使用される方法は、勾配秋(勾配降下)であった:損失を低減し続けるとは逆方向に現在の点の勾配に対応する損失値を移動させることによって。学習率(学習率)を制御することにより、動きはどのくらいです。

 

4.グラデーションディセント

減少勾配の問題:

 しかし、ニューラルネットワークを訓練勾配降下を使用すると、2つの大きな問題があります。

一つ:極小値

勾配降下は、極小損失関数を探している、と私たちは、グローバルな最小値を求めています。以下に示すように、我々は右のダークブルーの最低点であってもよい損失値を下げることを願っていますが、いくつかの局所的最小損失左側に「立ち往生」があります。

2つのカテゴリに分ける方法の問題「極小値でスタック」を解決しようとすると:

  • 調整のペースは:ので、毎回更新「ペース」異なる、学習率を調整します。一般的な方法は以下のとおりです。
  • 確率的勾配降下法(確率的勾配降下(SGD):更新ごとに1つのサンプルのみを算出し、勾配
  • 小バッチ勾配降下(ミニバッチ勾配降下):いくつかのサンプルの平均値計算された勾配の各更新
  • 運動量(運動量)の代わりに現在のサンプルのみ計算勾配を考慮した、ネステロフ運動量(ネステロフモメンタム):運動量の改善
  • Adagrad、RMSProp、Adadelta、アダム:これらのメソッドは、学習率を減らすために、トレーニングプロセスのルールに従っている、また、包括的な運動量の一部
  • 最適化された開始点:合理的な初期化右端より良い左端の開始点よりも上の開始点としての重み(重みが初期化)、事前研修ネットワーク(プリ電車)、ネットワークは良いを得る「出発点」、。一般的な方法は次のとおり初期重量ガウス分布(ガウス分布)、初期重量(一様分布)の均一な分布、初期重量、彼の初期の重みをGlorot、初期重量疎行列(スパース行列)

第二の問題:計算勾配

機械学習によって処理されたデータはすぐにというの年に比べて、勾配を計算する方法を、高次元のデータを、あります。第二には、どのように隠された層の重みを更新するには?溶液は:図計算値:逆伝搬アルゴリズムは、バックプロパゲーションアルゴリズムは、勾配を求める方法であることを知る必要があります。高速フーリエ貢献として(FFT)を変換です。計算グラフの概念がより合理的で便利なの勾配を計算します。

 

第二に、フィードフォワードニューラルネットワーク

ニューラルネットワーク(フィードフォワードニューラルネットワーク)をフィードフォワード、それは NNの一種。このニューラルネットワークは、ニューロンの各々は、入力層から入力されるまで、次のいずれかに開始し、出力する前に、受信した 出力層フィードバックなしのネットワーク全体は、有向非巡回グラフを表すことができます。
片道多層構造を用いたニューラルネットワークをフィードフォワード。各層が複数のニューロンを含み、同じ層、一方向のみに層間送信情報のニューロン間の相互接続は存在しません。前記第1の層は入力層と呼ばれています。最後の層は出力層です。中間隠された層、中間層と呼ばれます。隠された層は、層であってもよいです。また、多層ことができます。
 
  • ネットワークアーキテクチャ:2次元の入力  \ RIGHTARROW\ RIGHTARROW1次元出力

  • 構造式:
    • フォワード転送:  Y = M(X)= relu(W_ {H} \ CDOT relu(W_ {X} \ CDOT X + B_ {X})+ B_ {H}) (1)
      • と 確率変数の表現するために使用される  と 値を、  バツ 表す確率変数  バツ の値は  M(x)は 、当社のニューラルネットワークモデルは、等号の右側には、具体的な表現です。
    • 損失関数: 損失= 1/2 \ CDOT \和\ limits_i(Y_I-T_I)^ 2
      • 该loss就是比较 と 和 トン 中所有值的差别。
  • 整体结构:左侧的图表示网络结构。绿色方框表示操作,也叫作层(layer)。该结构中,输入 バツ 经过hid_layer算出隐藏层的值 時間 ,再传递给out_layer,计算出预测值 と ,随后与真实值 トン 进行比较,算出损失 損失 ,再从反向求导得出梯度后对每一层的 W和 B 进行更新。

 

  • 正向传递:如果放大hid_layer内部,从下向上,会看到 W_h 先用truncated_normal的方法进行了初始化,随后与输入 バツ 进行矩阵相乘,加上 B_H ,又经过了activation后,送给了用于计算 と 的out_layer中。而 と 的计算方式和 時間 完全一致,但用的是不同的权重 W_o 和偏移 b_o 。最后将算出的预测值 と 与真实值 トン 一同求出 損失

  • 反向传递:如果放大train的内部,再放大内部中的gradients,就可以看到框架是从 損失开始一步步反向求得各个层中 W 和 B 的梯度的。

  • 权重更新:求出的各个层 W 和 B 的梯度,将会被用于更新对应的 W 和 B ,并用learning rate控制一次更新多大。(beta1_power和beta2_power是Adam更新方法中的参数,目前只需要知道权重更新的核心是各自对应的梯度。)

三、循环神经网络(RNN)

 前馈网络:window size为3帧的窗处理后的前馈网络

  • 动态图:左侧是时间维度展开前,右侧是展开后(单位时刻实际工作的只有灰色部分。)。前馈网络的特点使不同时刻的预测完全是独立的。我们只能通过窗处理的方式让其照顾到前后相关性。
 

 

  • 数学式子:h_t = \ PHI(W_ {XH} \ CDOT連結(X_ {T-1}、X_T、X_ {T + 1})+ {B}),concat表示将向量并接成一个更大维度的向量。
  • 学习参数:需要从大量的数据中学习W_ {} XHB
  • 要学习各个时刻(3个)下所有维度(39维)的关系(39*3个),就需要很多数据。

 递归网络:不再有window size的概念,而是time step

  • 动态图:左侧是时间维度展开前,回路方式的表达方式,其中黑方框表示时间延迟。右侧展开后,可以看到当前时刻的h_t并不仅仅取决于当前时刻的输入X_T,同时与上一时刻的H_ {T-1}也相关。
 

  • 数学式子:h_t = \ PHI(W_ {XH} \ CDOT X_T + W_ {HH} \ CDOT H_ {T-1} + {B})h_t同样也由X_TW_ {} XH的变化后的信息决定,
  • 但这里多另一份信息:W_ {HH} \ CDOT H_ {T-1},而该信息是从上一时刻的隐藏状态H_ {T-1}经过一个不同的W_ {HH}变换后得出的。
  • 注:W_ {} XH形状の行動dim_input、dim_hidden_​​stateとして、一方でW_ {HH}ランクの節骨がdim_hidden_​​stateあります。
  • 学習パラメータ:フィードフォワードネットワークを使用すると、一度学習に役立つ3人の時間を必要とW_ {} XHし、再帰的なネットワークは、あなたは三回学習に役立つ3つの時間を使用することができますW_ {} XHし、W_ {HH}言い換えれば、すべての時間の重み行列が共有されています。これは、フィードフォワードネットワークの最も顕著な利点に対して再帰的ネットワークです。
リカレントニューラルネットワーク共有機能は、ニューラルネットワークの時間構造に存在する変異体です。

タイム・シェアリングは、ネットワークのコア再帰構造の中核です。

 

 

おすすめ

転載: www.cnblogs.com/jimchen1218/p/11805271.html