A、複数の機能
このレッスンでは、主に、次いで、N特徴があると仮定すると、いくつかのトークンを導入:
処理行列を容易にするために、ように(1 \ = X_0。)\:
パラメータ\(\シータ\)がある(n+1)*1
いずれかの訓練サンプルの、ベクトルの次元また(n+1)*1
次元のベクトル、そのため各トレーニングサンプルのため:\(H_ \シータ(X)= \シータのTx ^ \) 。
二、複数の変数のための最急降下法
同様に、コスト関数が定義される:
までのパラメータを更新しながら\(J \) :収束
\ [\ theta_j:= \ theta_j- \アルファ\ FRAC 1 {M}} {\ sum_ {I} = ^ {M} 1(H_。 \シータ(X ^ {(I )}) - y ^ {(I)})^ {X - jが(I)} \]
三、機能のスケーリング
これらの特性の値が同様の規模を持っている場合は、勾配降下は、実際には、より高速な正規化を収束します。
アンドリュー機能が[-1,1]の間の値をスケーリング推奨:
\ [X_I = \ {X_I-FRAC S_Iのu_i} {}、平均値u_iある、S_Iは\最大最小または採取標準偏差をとることができます]
四、学習率
図1は、反復の数が反復の数をレンダリングによって、不確実収束は、勾配降下必要\(Jが\)と、図の収束を予測するために、コスト関数が所定の閾値が決定さ未満であるにも変更することができます。
2は、学習率は、一般的に0.001,0.003,0.01,0.03,0.1,0.3,1を試してみてください...
五、特長および多項式回帰
時には、線形回帰は、多項式回帰を必要とし、時には、適用されません。
多項式回帰は、線形回帰に変換することができます。
六、正規方程式
誘導体が0である場合、得られるように直接導出することにより正規方程式、\(\シータ\)解析解を、よう\(J \)勾配降下として必要反復せず、最小。
Xはm*(n+1)
特性行列、Yはm*1
:容易図由来のベクター
\(X = Y \シータ\) (この式は明らかに間違っている... \(Y \)は、タグのみを集めている)の溶液(\ \ X-シータ= ^ { - }。1 Y \) (結論が間違っているように)、このようにして得られた\(\シータ\)が明らかに損失を最小限にするために機能することができません。
カリキュラムを書き込む({ - } \シータ=(X-TX ^)^ 1 X-Tyの^ \)\、コスト関数の詳細な導出は、ガイドを与えるために求めて得られます。この式のように簡略化することができる(\ ^ {X-θ= - 1} Y \)\、ためだけ\(X ^ T \)と\(X- \)可逆的であり、唯一の\((X ^ TX)^ { X- ^} = {-1 - } 1(X-T ^)^ { - } 1 \)。
2つのアルゴリズムの比較:
正規方程式は、にのみ適用される線形モデル、および機能のスケーリングを必要としません。