机器学习系列之逻辑回归

前一篇博客介绍了线性回归，纵使可以撇开 y 是离散值得事实，给定 x, 使用线性回归对 y 进行预测，可以找到很多示例说明这种预测结果不会很好，比如说，房价不可能随着面积大小线性增长。并且当我们知道 y 的取值范围在{0，1}时，预测结果大于 1 或者小于 0 已经没有了意义。怎样解决这个问题？可以使用逻辑回归。

逻辑回归于线性回归有很多相似之处，最大的不同在于他们的因变量不同。线性回归用来预测连续变量的值，而逻辑回归是用来求分类的，可以用来解决二分类问题，也可以用于解决多分类问题，但是解决二分类问题更为常见。

g (z) = 1 1 + e - z

$g(z)=\frac{1}{1+e^{-z}}$
称为logistic 函数或者 sigmod 函数。函数图像如下所示：

g(z) $g(z)$ 的导数

g′(z) $g′(z)$ 为:

g' (z) = d d z 1 1 + e - z = 1 ( 1 + e - z ) 2) (e - z) = 1 ( 1 + e - z ) \cdot (1 - 1 ( 1 + e - z )) = g (z) (1 - g (z)) .

$\begin{align} g′(z) &= \frac{d}{dz}\frac{1}{1+e^{-z}}\\ &= \frac{1}{(1+e^{-z})^2})(e^{-z}) \\ &= \frac{1}{(1+e^{-z})}\cdot(1-\frac{1}{(1+e^{-z})})\\ &= g(z)(1-g(z)). \end{align}$

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

假设有:

P (y = 1 | x; θ) = h θ (x)

$P(y=1 | x;\theta) = h_{\theta}(x)$

P (y = 0 | x; θ) = 1 - h θ (x)

$P(y=0 | x;\theta) = 1 - h_{\theta}(x)$
更为一般的形式 :

P (y | x; θ) = (h θ (x)) y ((1 - h θ (x))) 1 - y

$P(y|x;\theta) = (h_{\theta}(x))^y((1 - h_{\theta}(x)))^{1-y}$

最大似然函数为：

L (θ) = p (y ⃗ | X; θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$\begin{align} L(\theta) &= p(\vec{y}|X;\theta)\\ &= \prod_{i=1}^mp(y^{(i)} | x^{(i)};\theta)\\ &= \prod_{i=1}^m(h_{\theta}(x^{(i)}))^{y^{(i)}} (1-h_{\theta}(x^{(i)}))^{1-y^{(i)}} \end{align}$

上式求对数得：

l (θ) = log L (θ) = \sum i = 1 m y (i) log h (x (i)) + (1 - y (i)) log (1 - h (x (i))))

$\begin{align} l(\theta) &= \log{L(\theta)}\\ &= \sum_{i=1}^my^{(i)}\log h(x^{(i)})+(1-y^{(i)})\log(1-h(x^{(i)}))) \end{align}$

对 $l(\theta)$ 求导得:

\partial \partial θ j l (θ) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) \partial \partial θ j g (θ T x) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) g (θ T x) (1 - g (θ T x)) \partial \partial θ j θ T x = (y (1 - g (θ T x) - (1 - y) g (θ T x) x j) = (y - h θ (x)) x j

$\begin{align} \frac{\partial}{\partial\theta_j}l(\theta) &= \left(y\frac{1}{g(\theta^Tx)}-(1-y)\frac{1}{1-g(\theta^Tx)}\right)\frac{\partial}{\partial\theta_j}g(\theta^Tx)\\ &= \left(y\frac{1}{g(\theta^Tx)}-(1-y)\frac{1}{1-g(\theta^Tx)}\right)g(\theta^Tx)(1-g(\theta^Tx))\frac{\partial}{\partial\theta_j}\theta^Tx\\ &= \left(y(1-g(\theta^Tx)-(1-y)g(\theta^Tx)x_j\right) \\ &= (y-h_{\theta}(x))x_j \end{align}$

所以随机梯度下降规则为 :

θ j : = θ j (y (i) - h θ (x (i))) (x j) (i)

$\theta_j := \theta_j(y^{(i)}-h_{\theta}(x^{(i)}))(x_j)^{(i)}$

实验代码如下 :

    # encoding=utf-8
    import numpy as np


    def gradAscent(dataMatIn, classLabels):
        dataMatrix = np.mat(dataMatIn)  # 数据列表转换成矩阵
        labelMat = np.mat(classLabels).transpose()  # 类标签列表转换成矩阵
        m, n = np.shape(dataMatrix)  # 得到dataMatrix矩阵大小
        alpha = 0.001  # 每次上升的步长
        maxCycles = 500  # 迭代次数
        weights = np.ones((n, 1))
        for k in range(maxCycles):
            h = sigmoid(dataMatrix * weights)  # 计算假设函数h（列向量）
            error = (labelMat - h)  # 类标签和假设函数的误差
            weights = weights + alpha * dataMatrix.transpose() * error  # 对weights进行迭代更新
        return weights


    def sigmoid(inX):
        return 1.0 / (1 + np.exp(-inX))


    def loadDataSet():
        dataMat = []
        labelMat = []
        fr = open('../resources/lr.txt')
        for line in fr.readlines():
            lineArr = line.strip().split()
            dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])  # 得到数据列表
            labelMat.append(int(lineArr[2]))  # 类标签
        return dataMat, labelMat


    if __name__ == '__main__':
        data, lable = loadDataSet()
        weights = gradAscent(data, lable)
        print(weights)

源代码以及实验数据存储在github

机器学习系列之逻辑回归

猜你喜欢