《机器学习实战》学习笔记---Logister回归

最近学习《机器学习实战》这本书，感觉到自己的数学知识严重不足。对于梯度上升法，大家可能都接触过，本章利用Python的实现很精炼，仅用一行代码就复现了，但里面包含了很多的数学推导，经过查找各方资料，现在终于搞明白了，也希望能帮助到对此感到困惑的朋友。

一、首先介绍一下Logistic回归算法：

算法主要思想：根据已知的数据建立分类边界线（面）的回归方程，依次进行分类。
优缺点：
(1)优点：计算代价不高，易于理解和实现；
(2)缺点：容易欠拟合。
分类器—Logistic函数
截取书中的函数图像，如下图所示。很显然，当样本数量很大时，函数图像与单位阶跃函数很像。

函数表达式：
$h (z) = 1 1 + e - z$ $h(z)=\frac{1}{1+e^{-z}}$
对于一个数据样本 $x$ ，这里需要估计它的权重值 $w$ ,那么估计函数可表示为：
$h w (x) = 1 1 + e - w T x (1)$ $h_w(x)=\frac{1}{1+e^{-w^Tx}} \ \ \ \ \ \ \ \ \ \ \ (1)$
分类规则：
$r e s u l e = {1 i f h w (x) > 0.5 0 i f h w (x) < 0.5$ $resule=\{^{1 \ \ \ \ \ \ if \ h_w(x)>0.5} _{0 \ \ \ \ \ \ if \ h_w(x)<0.5}$
算法流程：
算法实现：
由算法流程可知，算法的关键就是寻求最优权重值 $w$ 。那么下面将逐步推导出 $w$ 的迭代公式。
对于样本 $x$ ，由(1)式可以得到它的概率分布：

$P (y = 1 | x, w) = h w (x); P (y = 0 | x, w) = 1 - h w (x)$ $P(y=1|x,w)=h_w(x);\ P(y=0|x,w)=1-h_w(x)$
将上式合并后可得到：
$P (y | x; w) = (h w (x)) y (1 - h w (x)) (1 - y), y ϵ {0, 1} (2)$ $P(y|x;w)=(h_w(x))^y(1-h_w(x))^{(1-y)},y\epsilon{\{0,1\}} \ \ \ \ \ \ (2)$
根据式(2)，对 $w$ 进行最大似然估计：
$L (w) = P (Y | x : w) = \prod i P (y i | x i; w) = \prod i (h w (x i) y i) (1 - h w (x i) (1 - y i))$ $L(w)=P(Y|x:w)=\prod_iP(y_i|x_i;w)=\prod_i(h_w(x_i)^{y_i})(1-h_w(x_i)^{(1-y_i)})$
为了计算方便，对上式取对数，得到：
$l (w) = l o g (L (w)) = \sum i = 1 m [y i l o g h w (x i) + l o g (1 - h w (x i)) (1 - y i)] (3)$ $l(w)=log(L(w))=\sum_{i=1}^{m}[y_ilogh_w(x_i)+log(1-h_w(x_i))(1-y_i)] \ \ \ \ \ \ (3)$
对上式，利用梯度上升法求解 $w:$ ,梯度上升法公式：
$w = w + α \nabla w l (w)$ $w=w+\alpha\nabla_wl(w)$
接下来计算 $\nabla_wl(w):$
$\partial l ( w ) \partial w = \sum i = 1 m [y i 1 h w ( x i ) \partial h w \partial w - (1 - y i) 1 1 - h w ( x i ) \partial h w ( x i ) \partial w] = \sum i = 1 m [y i ( 1 - h w ( x i ) ) - ( 1 - y i ) h w ( x i ) h w ( x i ) ( 1 - h w ( x i ) )] \partial h w \partial w = \sum i = 1 m y i - h w ( x i ) h w ( x i ) ( 1 - h w ( x i ) ) x i e - w T x i ( 1 + e - w T x i ) 2 = \sum i = 1 m (y i - h w (x i)) x i$ $\frac{\partial l(w)}{\partial w}=\sum_{i=1}^{m}[y_i\frac{1}{h_w(x_i)}\frac{\partial h_w}{\partial w}-(1-y_i)\frac{1}{1-h_w(x_i)}\frac{\partial h_w(x_i)}{\partial w}]\\=\sum_{i=1}^{m}[\frac{y_i(1-h_w(x_i))-(1-y_i)h_w(x_i)}{h_w(x_i)(1-h_w(x_i))}]\frac{\partial h_w}{\partial w}\\= \sum_{i=1}^{m}\frac{y_i-h_w(x_i)}{h_w(x_i)(1-h_w(x_i))}\frac{x_ie^{-w^Tx_i}}{(1+e^{-w^Tx_i})^2} \ \ \ \ \ \\ = \sum_{i=1}^{m}(y_i-h_w(x_i))x_i \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$
从而得到 $w$ 的迭代公式：
$w = w + α (y - h w (x)) x (4)$ $w=w+\alpha(y-h_w(x))x \ \ \ \ \ \ \ \ \ \ \ \ \ \ (4)$
其中， $\alpha$ 为步长， $y-h_w(x)$ 为实际值与预测值之差，即书中所说的 $error$ ,而 $x$ 为数据样本。
基于以上分析，就可利用Python实现算法了。

二、Python实现

这里仅列出利用梯度上升法求最优权重值的Python程序：

'''梯度上升法寻找最优权重值'''
  def Search(dataList,labeList):
    dataMat=mat(dataList)
    labeMat=mat(labeList).transpose()
    alpha=0.001
    maxIter=500
    m,n=shape(dataMat)
    weights=ones([n,1])
    w1=zeros(maxIter);w2=zeros(maxIter);w3=zeros(maxIter)
    for k in range(maxIter):
        h=sigFunc(dataMat*weights)
        error=labeMat-h
        weights=weights+alpha*dataMat.transpose()*error
    return weights

可以注意到，程序中求 $w$ 的迭代过程： $weights=weights+alpha*dataMat.transpose()*error$
其中 $weights$ 为初值为1的 $n*1$ 维向量， $alpha$ 为步长， $dataMat$ 为样本数据 $m*n$ 维矩阵，转置后乘以 $m*1$ 维的误差向量。仅用一条语句就将 $w$ 的迭代过程表现出来了，太精炼了!^-^

三、sklearn实现Logistic回归

def sklearn_Logistic():
    '''导入必要的包'''
    from sklearn import datasets
    import numpy as np
    from sklearn.model_selection import train_test_split

    '''加载sklearn自带的iris数据集'''
    iris=datasets.load_iris()
    x=iris.data
    y=iris.target
    '''将数据集分割，分割比例为0.3'''
    x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=0)

    '''数据标准化'''
    from sklearn.preprocessing import StandardScaler
    sc=StandardScaler()
    sc.fit(x_train)
    x_train_std=sc.transform(x_train)
    x_test_std=sc.transform(x_test)

    '''建立LR模型，并计算准确率'''
    from sklearn.linear_model import LogisticRegression
    lr=LogisticRegression(C=1000.0,random_state=0)
    lr.fit(x_train_std,y_train)
    print('模型准确率为： ', np.mean(lr.predict(x_test_std)==y_test))

输出：

模型准确率为：  0.977777777778

参考：
1、《Machine Learning in Action》译名：《机器学习实战》作者：Peter Harrington 译者：李锐李鹏曲亚东王斌
出版社：人民邮电出版社
2、这篇文章介绍的很详细：http://blog.csdn.net/dongtingzhizi/article/details/15962797

《机器学习实战》学习笔记---Logister回归

一、首先介绍一下Logistic回归算法：

二、Python实现

三、sklearn实现Logistic回归

猜你喜欢