SVMの機械学習を理解するための統一されたフレームワークに従ってください

SVMの機械学習を理解するための統一されたフレームワークに従ってください

I.はじめに

  1. 私のブログは私のアイデアや思考過程を記録するために、科学のブログの本質ではありません。指摘へようこそ私は死角と思いますが、私たちは私たち自身の理解を持つことができることを願っています。
  2. カリキュラムとLiハングにこのリファレンスでは、大幅に教育CHANGの統計的な学習方法は、SVMを説明します。

第二に、理解

統一された機械学習フレームワーク(MLA):

1.モデル(モデル)
2.戦略(損失)
3.アルゴリズム(アルゴリズム)

上述の枠組みによれば、SVMのコアは、の使用であるヒンジ損失核の方法

SVM:ヒンジ損失+カーネル法

所与のデータセット\((x ^ 1、\の帽子{Y} ^ 1)、(X ^ 2、\帽子{Y} ^ 2)...(X ^ N、\帽子{Y} ^ N)\ 、ここで、\(\ハット{Y} ^ Iは、\で\ {1、-1 \} \) および線形関数:
\ [F(X)= W ^のTx + B \]

\ [Y = \開始{ケース
} 1、\クワッド&F(X)> 0 \\ -1、&F(X)<0 \端{ケース} \] 同時に:
場合(\ \ハット{Y} = 1 \ 場合、\(F(X)\)より良い; \ - (\ハット{Y} = 1 \)。場合、\)\(F(X)はできるだけ小さいです。
要約すると、即ち:\(\ハット{Y} F(X)\)より良いです。

損失

構造的リスク最小化:体験+正則化項のリスク

経験的リスク

上述したように、我々はしたい(\ハット{Y} F \ \(X))をするときできるだけ大きく、すなわち、(\ \ハット{Y}、F (X)を\) が大きいほど、損失が限り小さい(大きい値でなければならない場合、小さな損失)。
1。使用を検討して\(シグモイド+クロス\エントロピー\ ) 損失関数を:
\ [\ハット{Y} = \開始{ケース} + +1、\;&F(X)> 0 \;&\シグマ(F(X ))\ longrightarrow 1、&損失 = -ln(\シグマ(F(X)))\\ -1、\;&F(X)<0 \;&\シグマ(F(X))\ longrightarrow 0、&損失= -ln(1- \シグマ(F(
X)))\端{ケース} \] 考慮\(1- \シグマ(F( X))= 1- \ FRAC {1} {1 + EXP(-fを(X))} = \ {FRAC。1. 1 + EXP {}(F(X))} =シグマ\(-f(X))\)
\ [損失= -ln(\シグマ(\ハット{Y} F (X)))= LN( 1 + EXP( - \帽子{Y} F(X)))\]

これは、レートスイカ損失の本です。
2。使用ヒンジ損失損失関数:
損失の時間速度を使用して、それが望ましい(\ \ハット{Y} F (X)\) 、良好良く、エンドレスこと。
別の観点、我々はしたい場合(\ \ハット{Y} fは (X)\) 場合、すなわち、それを十分に行うには\(HAT {Y}を\ F (X)> 1 \) 場合我々はそれがゼロに十分、そして損失を行っていると信じています。

余談:横学習のような損失をヒンジ、何度も私たちはライン上で理解して、この時間はおそらく知っている、フィールドについて多くのことを学ぶ必要がある。その分野での縦断的研究を勉強する必要があるとして、損失の割合は、十分です。

\ [損失= MAX(0,1-ハット\ {Y} F(X))\]

定期的なアイテム

\ [\ FRAC {1} { 2} || W || ^ 2 \]
要約すると、最終的な損失関数:\
[損失= \ FRAC 1} {2} {\ ^ 2ラムダ|| W || + \ sum_ {i = 1} ^ N MAX(0,1-ハット\ {Y} ^ IF(X ^ I))\]

定期的なアイテム通知の損失凸関数である、経験損失項目は凸関数である、それは、勾配降下法で直接解決することができます。

アルゴリズム

勾配降下

\ [\ FRAC {\部分L} {\部分W} = \ラムダW + \ sum_ {i = 1} ^ N - デルタ\(\ハット{Y} ^ IF(X ^ I)<1)\帽子{Y } ^ IX ^私は\]

\ [\ FRAC {\部分L} {\部分B} = \ sum_ {i = 1} ^ N - \デルタ(\ハット{Y} ^ IF(X ^ I)<1)\ハット{Y} ^ iは\]

前記\(\デルタ(\ハット{ Y} ^(X ^ I)<1)\場合) インジケータ関数です。

\ [^ {K + 1} = W ^ K- \ ETA W(\ラムダW ^ K +、\ sum_ {i = 1} ^ N - \デルタ(\ハット{Y} ^ IF(X ^ I)<1) \帽子{Y} ^ IX ^ I)\]

\ [B ^ {K + 1} = B ^ K- \ ETA(\ sum_ {i = 1} ^ N - \デルタ(\ハット{Y} ^ IF(X ^ I)<1)\帽子{Y} ^ I)\]

概要

データの特定のセットのために、分類、それらを分割する超平面を見つけ、そして良い(戦略HingeLoss)を行うことは可能な限り必要です。現在の場所に何をしたかです。現在の次元または空間に(割り切れるは非常に良いではありません)口座に可能善を服用しないでください、あなたは、これらのデータポイントを置くことができるか、あなたは現在のタスクを置くことができるようにバラ次元、スペースは別の空間でより良い分離を持っている変換しますもっと良いです。

\ [Z = \ PHI(X)\]

Zの表現(低次元空間であってもよい、高次元空間であってもよい)xの変換は、次いで、上記の方法を再利用します

\ [損失= \ FRAC {1} {2} \ラムダ|| W || ^ 2 + \ sum_ {i = 1} ^ N MAX(0,1-ハット\ {Y} ^ IF(Z ^ i))を\]

\ [損失= \ FRAC {1} {2} \ラムダ|| W || ^ 2 + \ sum_ {i = 1} ^ N MAX(0,1-ハット\ {Y} ^場合(\ PHI(X ^私)))\]

弱点は:Xは、Zを得るために変換された後、我々は、最初のZを計算する必要がある、その後のフォローアップ計算、ときに大寸法L z次元、この時間分離は増加したが、大幅に計算量が増大するものの、だけでなく、Zが二次元無限大である場合のような特別な場合のために、zは単に、計算することができない、したがって、核の方法をもたらします。

スプレッド

  1. ニューラルネットワークの深さのために失われた機能のhingelossの交換が、それはSVMの学習版の深さであれば、我々は一般的に、クロスエントロピー損失関数を使用し、2つの分類作業を行います。
  2. 特徴変換層、分類層とみなさ最後の層、そして我々は非常によく似て言う要約、およびなどのニューラルネットワークの前層のn-1の深さ\(X \) 変換、および分類。我々はSVMは、私たちの変換この関数を呼び出す:違いがあるということの定義を決定された伝達関数に、そしてディープラーニング不確実なデータによって、外科学の。
    一般に、SVM分類タスクと団結の考えに従うことを学ぶの深さは、本質からそれらを区別する必要はありません。

第三に、デュアルフォーム

オブジェクトを書き込むデュアル形式である:(B \、W)\データ点の線形結合として、これをすることができる(\ \ PHI(X ^ I )\ PHI(X ^ J)\) 、このような高次元の計算空間\(\カッパ(X ^ I 、X ^ J)\) 低次元空間では、計算され、その後、最終的な値は、直接方法カーネルを得ました。
暗黙のアイデアがある:私は、プロセス(L寸法の値)の真ん中を理解する必要はありません、ただライン(カーネル)上の関係を取得する必要があり、カーネル関数\(\カッパ\)は、この関係と言います。

よる(W B \)\特性式、場合\(W ^ = 0、 B ^ 0 = 0 \) 、見ることは容易である\(B \は、W)与えられたデータ点の線形結合であります(線形結合)
\ [W = \ sum_。1} ^ {N-I = \ alpha_i \ハットIX ^ {Y} ^ Iは\]

\ [B = \ sum_ {i = 1} ^ N \ beta_iの\帽子{Y} ^ iは\]

\ [\ alpha_i =イータ\ \ {(1- \のETA \ラムダ)^ k個の\デルタ<_ {B-、W(1)\ハット{Y} ^ I(^^送信wはiがB + 1)> 0} +(1- \のETA \ラムダ)^ {K-1} \デルタ(iはBを+ I(^^送信wは\帽子{Y} ^ <1))_ {B-、W> 1} +··· \\ +(1-ETA \ \ラムダ)^ 0 \デルタ(\ハット{Y} ^ I(^^送信wはiがBを+ <1))_ {W B-> K} \} \]

\ [\ beta_i = \イータ\ {\(iはBを+ \帽子{Y} ^ I(^^送信wは<1))_ {B-、W>デルタ0} + \デルタ(\ハット{Y} ^ I + ... \\ + \(iはBを+ \帽子{Y} ^ I(^^送信wは<1)デルタ<{1 B-、wは})_(1 ^^送信wはiがB + 1)> )_ {W、B-> K} \} \]

ここでは正規化項、があるので、このパーセプトロンを区別するために、\(\ラムダ> 0 \)は、もし\(\ラムダ= 0 \) その後、\(\ alpha_i = \ beta_i \ )

この場合には:

\ [F(X)= W ^のTx + B =(\ sum_ {i = 1} ^ N \ alpha_i \帽子{Y} ^ IX ^ I)^ {T} X + \ sum_ {i = 1} N ^ \ beta_i \帽子{Y} ^ iは\]

\ [F(X)= W ^のTx + B =(\ sum_ {i = 1} ^ N \ alpha_i \帽子{Y} ^ IZ ^ I)^ {T} Z +、\ sum_ {i = 1} N ^ \ beta_i \帽子{Y} ^ iは\]

\ [F(X)= W ^のTx + B = \ sum_ {i = 1} ^ N \ alpha_i \帽子{Y} ^ I \カッパ(Z ^ I、Z)+ \ sum_ {i = 1} ^ n個\ beta_iの\帽子{Y} ^ iは\]

おすすめ

転載: www.cnblogs.com/SpingC/p/11619814.html