机器学习-回归分类

线性回归

假设

H θ ( x ) = θ T x H_{\theta}(x)=\theta^Tx Hθ(x)=θTx
目标函数为

1 2 ∑ i = 1 m ( H θ ( i ) ( x ) − y i ) 2 \frac{1}{2}\sum_{i=1}^m(H_{\theta}^{(i)}(x)-y^{i})^2 21i=1m(Hθ(i)(x)yi)2

求导后获得单个实例的梯度下降公式

θ j : = θ j − ( H θ ( i ) ( x ) − y i ) x j ( i ) \theta_j:=\theta_j-(H_{\theta}^{(i)}(x)-y^{i})x_j^{(i)} θj:=θj(Hθ(i)(x)yi)xj(i)

使用法方程法则假设

X θ = Y X\theta=Y Xθ=Y

求解

θ = ( X T X ) − 1 X T Y \theta=(X^TX)^{-1}X^TY θ=(XTX)1XTY

分类

基于线性回归的思想,一个直观的想法:

对于二分类问题,类别标签分别为 1 1 1 0 0 0,将分类问题使用线性回归求解,之后按照 0.5 0.5 0.5为界限来划分两类数据。

问题:线性回归进行分类容易受到异常值的影响

解决方法:

  • Logistic回归: 减小离分类平面较远点的权重
  • SVM:只考虑决定最大分类平面的点(支持向量)

Logistic回归

逻辑函数:

g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1

特性:

g ( z ) ′ = g ( z ) ( 1 − g ( z ) ) g(z)'=g(z)(1-g(z)) g(z)=g(z)(1g(z))

分类假设:

H θ ( x ) = 1 1 + e − θ T x H_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}} Hθ(x)=1+eθTx1
P ( y = 1 ∣ x ; θ ) = H θ ( x ) P(y=1|x;\theta)=H_{\theta}(x) P(y=1x;θ)=Hθ(x)
P ( y = 0 ∣ x ; θ ) = 1 − H θ ( x ) P(y=0|x;\theta)=1-H_{\theta}(x) P(y=0x;θ)=1Hθ(x)

则可以获得似然函数

L ( θ ) = ∏ i = 1 m H θ ( x ( i ) ) y i + ( 1 − H θ ( x ( i ) ) ) ( 1 − y i ) L(\theta)=\prod_{i=1}^{m}H_{\theta}(x^{(i)})^{y^{i}}+(1-H_{\theta}(x^{(i)}))^{(1-y^{i})} L(θ)=i=1mHθ(x(i))yi+(1Hθ(x(i)))(1yi)

l ( θ ) = ∑ i = 1 m y i l o g H θ ( x ( i ) ) + ( 1 − y i ) l o g ( 1 − H θ ( x ( i ) ) ) l(\theta)=\sum_{i=1}^{m}y^{i}logH_{\theta}(x^{(i)})+(1-y^{i})log(1-H_{\theta}(x^{(i)})) l(θ)=i=1myilogHθ(x(i))+(1yi)log(1Hθ(x(i)))

求导后获得梯度上升公式

θ j : = θ j + ( y i − H θ ( i ) ( x ) ) x j ( i ) \theta_j:=\theta_j+(y^{i}-H_{\theta}^{(i)}(x))x_j^{(i)} θj:=θj+(yiHθ(i)(x))xj(i)

softmax分类

logistic在多分类的推广

H θ ( x ( i ) ) = [ P ( y ( i ) = 1 ∣ x ( i ) ; θ ) . . . . . . . . . P ( y ( i ) = k ∣ x ( i ) ; θ ) ] = 1 Z [ e θ 1 T x ( i ) . . . . . . . . . e θ 1 T x ( i ) ] H_{\theta}(x^{(i)})= \left[ \begin{matrix} P(y^{(i)}=1|x^{(i)};\theta)\\ ...\\ ...\\ ...\\ P(y^{(i)}=k|x^{(i)};\theta)\\ \end{matrix} \right] =\frac{1}{Z} \left[ \begin{matrix} e^{\theta_1^Tx^{(i)}}\\ ...\\ ...\\ ...\\ e^{\theta_1^Tx^{(i)}}\\ \end{matrix} \right] Hθ(x(i))=P(y(i)=1x(i);θ).........P(y(i)=kx(i);θ)=Z1eθ1Tx(i).........eθ1Tx(i)

似然函数为

∑ i = 1 m ∑ j = 1 k 1 { y ( i ) = k } l o g e θ j T x ( i ) ∑ t = 1 k e θ 1 T x ( i ) \sum_{i=1}^{m}\sum_{j=1}^{k} 1\{y^{(i)}=k\}log\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{t=1}^ke^{\theta_1^Tx^{(i)}}} i=1mj=1k1{ y(i)=k}logt=1keθ1Tx(i)eθjTx(i)

感知器算法

使得错误分类的点个数最少

g ( z ) = { 1 ; z > 0 − 1 ; z < 0 g(z)= \left\{ \begin{aligned} 1 ;z>0 \\ -1 ;z<0 \end{aligned} \right. g(z)={ 1;z>01;z<0

目标函数为误分类点到超平面的总距离

∑ x ∈ M − 1 ∣ w ∣ y ( i ) ( w x i + b ) \sum_{x\in M}-\frac{1}{ \left | w\right|}y^{(i)}(wx^{i}+b) xMw1y(i)(wxi+b)

由于主要关注错误分类点的个数,舍弃 1 ∣ w ∣ \frac{1}{ \left | w\right|} w1

∑ x ∈ M − y ( i ) ( w x i + b ) \sum_{x\in M}-y^{(i)}(wx^{i}+b) xMy(i)(wxi+b)

SVM算法

支持向量与分隔平面的距离最大化

函数边界 r ^ ( i ) = y ( i ) ( w T x ( i ) + b ) \hat{r}^{(i)}= y^{(i)}(w^Tx^{(i)}+b) r^(i)=y(i)(wTx(i)+b)
几何边界 r ( i ) = y ( i ) ( w T x ( i ) + b ) ∣ w ∣ r^{(i)}= \frac{y^{(i)}(w^Tx^{(i)}+b)}{\left | w\right|} r(i)=wy(i)(wTx(i)+b)

目标为最小几何边界最大,也即

m a x     r max\ \ \ r max   r
s . t .    y ( i ) ( w T x ( i ) + b ) ∣ w ∣ ⩾ r s.t. \ \ \frac{y^{(i)}(w^Tx^{(i)}+b)}{\left | w\right|} \geqslant r s.t.  wy(i)(wTx(i)+b)r

也即

m a x     r ^ ∣ w ∣ max\ \ \ \frac{\hat{r}}{ |w| } max   wr^
s . t .    y ( i ) ( w T x ( i ) + b ) ⩾ r ^ s.t. \ \ y^{(i)}(w^Tx^{(i)}+b) \geqslant \hat{r} s.t.  y(i)(wTx(i)+b)r^

缩放 w w w b b b使得 r ^ = 1 \hat{r}=1 r^=1,则

m i n     ∣ w ∣ 2 min\ \ \ |w|^2 min   w2

s . t .    y ( i ) ( w T x ( i ) + b ) − 1 ⩾ 0 s.t. \ \ y^{(i)}(w^Tx^{(i)}+b) -1 \geqslant 0 s.t.  y(i)(wTx(i)+b)10

使用拉格朗日乘子法得到其对偶问题,满足KKT条件求解

w ∗ = ∑ i = 1 N α i ∗ y i x i w^*=\sum_{i=1}^N\alpha_i^*y_ix_i w=i=1Nαiyixi
b ∗ = y j − ∑ i = 1 N α i ∗ y i x i x j b^*=y_j-\sum_{i=1}^N\alpha_i^*y_ix_ix_j b=yji=1Nαiyixixj

核函数:解决线性不可分的问题。
映射函数 ϕ \phi ϕ < x , z > <x,z> <x,z>变为 < ϕ ( x ) , ϕ ( z ) > <\phi(x),\phi(z)> <ϕ(x),ϕ(z)>
对应核函数 K ( x , z ) = < ϕ ( x ) , ϕ ( z ) > K(x,z)=<\phi(x),\phi(z)> K(x,z)=<ϕ(x),ϕ(z)>

  • 线性核
  • 高斯核, σ \sigma σ越大,高维衰减越快,拟合能力变差
  • 多项式核

软件界:

m i n     1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 n ϵ i min \ \ \ \frac{1}{2}||w||^2+C\sum_{i=1}^n\epsilon_i min   21w2+Ci=1nϵi

s . t .    y ( i ) ( w T x ( i ) + b ) ⩾ 1 − ϵ i s.t. \ \ y^{(i)}(w^Tx^{(i)}+b) \geqslant 1-\epsilon_i s.t.  y(i)(wTx(i)+b)1ϵi

ϵ i ⩾ 0 ,       i = 1... N \epsilon_i \geqslant 0 ,\ \ \ \ \ i=1...N ϵi0,     i=1...N

SVR: 找出一个超平面,使多有数据到该超平面的距离最小

m i n     1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 n ( ξ i + ξ i ∗ ) min \ \ \ \frac{1}{2}||w||^2+C\sum_{i=1}^n(\xi_i+\xi_i^*) min   21w2+Ci=1n(ξi+ξi)

s . t .    y ( i ) − ( w T x ( i ) + b ) ≤ ϵ + ξ i s.t. \ \ y^{(i)}-(w^Tx^{(i)}+b) \leq \epsilon +\xi_i s.t.  y(i)(wTx(i)+b)ϵ+ξi

   ( w T x ( i ) + b ) − y ( i ) ≤ ϵ + ξ i ∗ \ \ (w^Tx^{(i)}+b) - y^{(i)} \leq \epsilon +\xi_i^*   (wTx(i)+b)y(i)ϵ+ξi
x i i , ξ i ∗ ⩾ 0 ,       i = 1... N \\xi_i,\xi_i^* \geqslant 0 ,\ \ \ \ \ i=1...N xii,ξi0,     i=1...N

猜你喜欢

转载自blog.csdn.net/lovoslbdy/article/details/104860413
今日推荐