線形回帰[第四の瞳の機械学習合宿の深さ]

基本コンセプト

基本的な概念や記号を初めて目。$ X ^ {(I)} $ である入力変数、意味特性は、$ y ^ {(I) } $とも呼ばれる出力変数を表し、標識又はターゲットを(X ^ {(I)}からなるタプル両方$ 、y ^ {(I)})$を、すなわち{$(トレーニングセットを形成するために、学習サンプルを表し、このような訓練サンプルのN $ $しますX ^ {(I)}、 Y ^ {(I)});私は= 1、\ cdots、N} $。加えて、我々は、$ \ mathcal {X} $を使用$ \ mathcal {Y} $は、空間の出力値を表すと、空間の入力値を表します。関数が呼び出され、入力値に対する入力値マップ仮説と呼ばれるこれらのマッピング関数の集合から構成される(仮説)を、仮定のセットを \ mathcal {X}:$ Hとして表さ、 \ mapsto \ mathcal {Y} $を。線形関数の例として、一つの可能な仮説である:
$$
。H_ \シータ(X)= \ + theta_0 \ theta_ 1} {X_1 + \ theta_2 X_2
$$
請求$ \ $ theta_i仮説パラメータ(または呼ば重量用)。明らかに、異なる仮定のために、パラメータが異なっています。

機械学習プロセスは学習アルゴリズムの訓練セット上で実行され、入力値に応じた出力値を予測する仮説から「良い」仮説の$ H ^ * $を見つけ、集中。私たちは、出力値が連続している予測する必要がある場合は、我々はそれを呼び出す回帰、あなたが必要な場合は、予測値が離散的である、その分類次に、我々は二つの問題を解決する必要があります。最初の問題は、「良い」と「悪い」の仮定を測定する方法第二の問題は、「良い」という仮説を見つける方法

損失関数

「良い」との前提に測定する方法を最初の質問、初めて目に「悪いです。」明らかに、直感的なアイデアは、可能な限り小さくトレーニングセット、$ H_ \シータ(X)の予測値と$ $ $ Yの真の値との誤差です。したがって、我々は、各サンプルシータ$ H_ \シータ(X ^ {異なるパラメータ$ \ $予測値測定する関数を定義 (I)})$ との間に$ y ^ $真値{(I)}のをギャップ。この機能は、損失関数回帰では、損失関数は、一般的二乗誤差関数で使用される:
$$
。J(\シータ)= \ FRAC 1 {{}} 2N \ SUM {I} 1 = N ^ \左(H。 \シータ(X_ {I} ) - Y_ {I} \右)^ 2
$$

パラメータ学習

「良い」パラメータ$ \シータ$を学ぶためにどのように、他の言葉で、どのように「良い」という仮説を見つけるために:私たちはすでに「良い」と「悪い」の仮定を測定する方法を知って、次のことが第二の問題を解決する必要があります。私たちは$が最小化された損失関数$ J(\シータ)のパラメータを学ぶことができるように願っています。ここで紹介のパラメータを学ぶには二つの方法があります。

勾配降下

これは、勾配降下最適化手法です。これは、最初に最小に目的関数が収束するまで、最速の勾配降下更新パラメータの方向に沿って目的関数の対応する勾配について解くと、パラメータを初期化します。シングルステップの更新式を次のように
$$
\ theta_j \ coloneqq \ theta_j - \アルファ\ FRAC {\部分} {\パーシャル\ theta_j} J(\シータ)
$$
$ \ $アルファがどこにある学習率としても知られる、ステップ臨界勾配降下を達成$ J(\シータ)$ \偏導関数theta_j $の$解決することである:
$$
\開始{整列}
\ FRAC {\部分} {\部分\ theta_j} J(\シータ)&=を\ FRAC {\部分} {\部分\ theta_j} \ FRAC {1} {2}(H_ \シータ(X) - Y)^ 2 \
&= 2 \ CDOT \ FRAC {1} {2}(H_ \シータ( X) - Y)\ CDOT \ FRAC {\部分} {\部分\ theta_j}(H_ \シータ(X) - Y)\
&=(H_ \シータ(X) - Y)\ CDOT \ FRAC {\部分} {\部分\ theta_j} \左(\ sum_ I = {0}} ^ {D \ theta_i X_I - Y \右)\
&=(H_ \シータ(X) - Y)X - jが
\整列終了{}
$$
ため次のように単一の訓練サンプルに対する更新規則は、次のとおりです。
$$
\ theta_j \ coloneqq \ theta_j - \アルファ\左(H_ \シータ(X ^ {(I)}) - y ^ {(I)} \右)におけるX - jが^ {(J)}、\ FORALL J \ {0,1、\ cdots、D}
$$

また、書くことができる。
$$
\シータ\ coloneqq \シータ- \アルファ\左(H_ \シータを(X ^ {(I)}) - {^ Y(I)} \右)^ {X(I)}
$$

勾配降下アルゴリズムを使用する場合、機能のスケーリングおよび正規化を可能にします。この2段階動作ので、すべての特性値は、損失関数$ J(\シータ)を確保するために近い範囲内であること$は偏向されません。

通常の方程式法

最小化$ J(\シータ)$は凸最適化問題であるので、その$ J(\シータ)$は、グローバルに一意の最小値を有します。私たちが直接、問題の解析解を計算することができ、この手段。

この問題を解決するために、我々はすべての行列$ X $で構成されるトレーニングサンプルを構築する必要がある、行列の各行は、学習サンプルを表し、各列は異なる特性を表しています。ここで、$ X- $ $ N \倍(D + 1 )$ :(切片を含む)三次元マトリックス
$$
X- = \ bmatrix開始{}
(X ^ {(1)})^ T - - \
- (X ^ {(2)})^ T - \
\ vdots \
- (X ^ {(N)})T- ^
\} 終了{bmatrix
$$
順序$ \ VEC {Y} $すべての真値からなります$ $ n次元ベクトル:
$$
\ VEC =始めるbmatrix {Y} \} {
(1)Y {^} \
Y ^ {(2)} \
\ vdots \
Y ^ {(N)} \
\ {エンドbmatrix }
$$
$ H_ \シータ(X ^ {ので (I)})=(X ^ {(I)})^ T \シータ$、 $ \シータが$ D + 1 $次元ベクトルを$、それがどこにありますか以下の形式:
$$
\ {始める整列}
X- \シータ- \ {Y}&VEC = \ bmatrix開始{}
({X ^(1)})^ T \シータ\
\ vdots \
(^ {X(N) })^ T \シータ\
\ bmatrix}終了{ - \} {始めるbmatrix
。Y ^ {(1)} \
\ vdots \
Y ^ {(N)} \
\終了{bmatrix} \
&= \開始{bmatrix}
H_ \シータ(X ^ {(1)}) - Y ^ {(1)} \
\ vdots \
H_ \シータ(X ^ {(N-)}) - ^ {Y(N-)} \
\ bmatrixエンド{}
\整列エンド{}
$$
任意のベクトルの$ Z $に対する、我々が持っている$ Z ^ Tzを= \ sum_ { I} ^ 2 $ z_i。従って、$ J(\シータ)行列形式で記述された$:
$$
\ {}開始位置合わせ
J(\シータ)=&\ FRAC 1} {2} {\ sum_ {I} 1 = N ^ {} \左。 (H_ \シータ(X ^ { (I)}) - y ^ {(I)} \右)^ 2 \&= \ FRAC {1} {2}(X \シータ- \ VEC {Y})^ T (X- \シータ- \ VEC {Y})
\整列終了{}
$$
$ Jの(\シータ)得られた誘導体$:
$$
\整列{}開始
\ nabla_ \シータJ(\シータ)=&\ nabla_ \シータ\ FRAC {1} { 2}(X \シータ- \ VEC {Y})^ T(X \シータ- \ VEC {Y})\
&= \ Fracの{1} { 2} \左((X \シータ)^ TX \シータ- (X \シータ)^ T \ VEC {Y} - \ VEC {Y} ^ T(X \シータ)+ \ T ^ {Y} VEC \ VEC {Y} \右)\
&= \ FRAC。1} {2} {\左(\ ^ Tシータ(X- ^ TX)\シータ- \ VEC T ^ {Y}(X- \シータ) - \ VEC T ^ {Y}(X- \シータ)\右)\
&= \ FRAC 1} {2} {\左(\ ^ Tシータ(X- ^ TX)\シータ-2(\ Y {VEC。 } ^ TX)\シータ\右)\
&= \ FRAC {1} {2} \(\シータ^ T(X- ^ TX)\シータ2(X- ^ T \ VEC {Y})^ T \シータ左\右)\
&= \ FRAC {1} {2}(2X ^ TX \シータ2X ^ T \ VEC {Y})\
&= X- ^ TX \シータ-X- ^ T \ VEC {Y}
\終了{ }整列
$$
ゼロに誘導体等しい、$ J(\シータ)$最小点を解決するために、正規方程式を得る:
$$
X-TX ^ \ ^ X-θ= \ {Y} VEC T
$$
したがって、$ J(最小$用\シータ)閉形式解:
$$
。\シータ=(X-TX ^)^ { - } 1 ^ X-T \ {Y} VEC
$$

$ X ^ TXが不可逆的な$とき、我々は慎重にトレーニングセットの特性を確認する必要があり、削除冗長には強い相関が特徴;または正則化技術を使用しています。また、あなたは$ X ^ TX $の擬似逆行列を解くことができます。

おすすめ

転載: www.cnblogs.com/littleorange/p/12175529.html