逻辑回归与二元分类——含python代码

逻辑回归和线性回归的最终目标都是拟合一个线性函数 $y=\boldsymbol{\theta}^T\boldsymbol{x}$ ,使得我们的预测输出和真实输出之间的差异最小。它们的区别在于损失函数不一样，线性回归的损失函数( $MSE$ )是基于模型误差服从正态分布的假设推导出来的，而逻辑回归的损失函数则是基于极大似然的假设推导出来的，即所有样本结果的后验概率乘积最大。

预测函数

因为我们利用超平面 $\boldsymbol{\theta}^T\boldsymbol{x}=0$ 来分类，所以当一个样本落在超平面上，我们就可以认为该样本为正样本的概率等于负样本的概率，即：

\frac{P (y = 1 | x)}{P (y = - 1 | x)} = 1

$\frac{P(y=1|\boldsymbol{x})}{P(y=-1|\boldsymbol{x})}=1$
对上式两边取对数：

l n \frac{P (y = 1 | x)}{P (y = - 1 | x)} = 0 = θ^{T} x

$ln\frac{P(y=1|\boldsymbol{x})}{P(y=-1|\boldsymbol{x})}=0=\boldsymbol{\theta}^T\boldsymbol{x}$
因为

P (y = 1 | x) + P (y = - 1 | x) = 1

$P(y=1|\boldsymbol{x})+P(y=-1|\boldsymbol{x})=1$ ，所以可以得到：

l n \frac{P (y = 1 | x)}{1 - P (y = 1 | x)} = 0 = θ^{T} x

$ln\frac{P(y=1|\boldsymbol{x})}{1-P(y=1|\boldsymbol{x})}=0=\boldsymbol{\theta}^T\boldsymbol{x}$
整理可得：

P (y = 1 | x) = \frac{e^{θ^{T} x}}{1 + e^{θ^{T} x}}

$P(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{\theta}^T\boldsymbol{x}}}{1+e^{\boldsymbol{\theta}^T\boldsymbol{x}}}$
所以

P (y = - 1 | x) = 1 - P (y = 1 | x) = \frac{1}{1 + e^{θ^{T} x}}

$P(y=-1|\boldsymbol{x})=1-P(y=1|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，

P (y = 1 | x)

$P(y=1|\boldsymbol{x})$ 的分子分母同时除以

e^{θ^{T} x}

$e^{\boldsymbol{\theta}^T\boldsymbol{x}}$ 得到

\frac{1}{1 + e^{- θ^{T} x}}

$\frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，这就是

s i g m o i d

$sigmoid$ 函数的推导过程。其函数曲线如下图所示：

我们可以将其理解为一种非线性变换，目的是把

(- \infty, + \infty)

$(-\infty,+\infty)$ 的数值映射到0到1之间，我们将映射结果视为

y = 1

$y=1$ 概率。

s i g m o i d

$sigmoid$ 函数有一个重要的性质：

f^{'} (z) = f (z) (1 - f (z))

$f'(z)=f(z)(1-f(z))$
该性质在后面求偏导数的时候会用到。

目标函数

我们令 $h(x)=\frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，由前面的推导可以将 $h(x)$ 理解为样本点 $x$ 为正样本的概率 $P(y=1|\boldsymbol{x})$ ，即 $P(y=1|\boldsymbol{x})=h(x)$ 。根据极大似然估计的思想，各个样本的结果出现总概率(即后验概率乘积)需要达到最大值，即：

m a x {\prod_{i = 1}^{N} P (y_{i} = k_{i} | x_{i})} (k_{i} = - 1, 1)

$max\{\prod_{i=1}^{N}P(y_i=k_i|\boldsymbol{x_i})\}(k_i=-1,1)$
因为

1 - h (x) = h (x)

$1-h(x)=h(x)$ ，所以上式取对数后可以得到：

\begin{array}{rcl} (1) & m a x {\sum_{i = 1}^{N} l n P (y_{i} = k_{i} | x_{i})} & = & m a x {\sum_{i = 1}^{N} l n (h (y_{i} x_{i}))} \\ (2) & = & m a x {\sum_{i = 1}^{N} l n (\frac{1}{1 + e^{- y_{i} θ^{T} x}})} \\ (3) & = & m i n {\sum_{i = 1}^{N} l n (1 + e^{- y_{i} θ^{T} x})} \end{array}

$\begin{eqnarray} max\{\sum_{i=1}^{N}lnP(y_i=k_i|\boldsymbol{x_i})\}&=&max\{\sum_{i=1}^{N}ln(h(y_i\boldsymbol{x_i}))\}\\ &=&max\{\sum_{i=1}^{N}ln(\frac{1}{1+e^{-y_i\boldsymbol{\theta}^T\boldsymbol{x}}})\}\\ &=&min\{\sum_{i=1}^{N}ln(1+e^{-y_i\boldsymbol{\theta}^T\boldsymbol{x}})\} \end{eqnarray}$
这便是逻辑回归的优化目标函数，它的最终形式表示为：

J = \frac{1}{N} \sum_{i = 1}^{N} l n (1 + e^{- y_{i} θ^{T} x})

$J=\frac{1}{N}\sum_{i=1}^{N}ln(1+e^{-y_i\boldsymbol{\theta}^T\boldsymbol{x}})$
在吴恩达的机器学习课程中，逻辑回归的目标函数形式为：

J = \frac{1}{N} \sum_{i = 1}^{N} {- y_{i} l n (h (x_{i})) - (1 - y_{i}) l n (1 - h (x_{i}))}

$J=\frac{1}{N}\sum_{i=1}^{N}\{-y_iln(h(\boldsymbol{x_i}))-(1-y_i)ln(1-h(\boldsymbol{x_i}))\}$
是因为它将负样本

y_{i}

$y_i$ 表示为0，它和我们推导出来的结果本质是相同的。

梯度下降

我们推导过程中有一步为： $max\{\sum_{i=1}^{N}ln(h(y_i\boldsymbol{x_i}))\}$ ，为了方便利用 $sigmoid函数的求导性质$ ，我们便把这个式子作为优化目标。要求一个凸函数的最大值，更新公式为：

θ = θ + \frac{\partial}{\partial θ} J

$\boldsymbol{\theta}=\boldsymbol{\theta}+\frac{\partial}{\partial\theta}J$
令

g (θ^{T} x) = h (x) = \frac{1}{1 + e^{- θ^{T} x}}

$g(\boldsymbol{\theta}^T\boldsymbol{x})=h(\boldsymbol{x})=\frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，优化目标可以变换为：

J (θ) = m a x {\sum_{i = 1}^{N} l n (g (y_{i} θ^{T} x_{i}))}

$J(\boldsymbol{\theta})=max\{\sum_{i=1}^{N}ln(g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\}$ ，对我们的优化目标进行求导：

\begin{array}{rcl} (4) & \frac{\partial}{\partial θ} J & = & \sum_{i = 1}^{N} \frac{1}{g (y_{i} θ^{T} x_{i})} \cdot \frac{\partial}{\partial θ} g (y_{i} θ^{T} x_{i}) \\ (5) & = & \sum_{i = 1}^{N} \frac{1}{g (y_{i} θ^{T} x_{i})} \cdot g (y_{i} θ^{T} x_{i}) (1 - g (y_{i} θ^{T} x_{i})) \cdot \frac{\partial}{\partial θ} (y_{i} θ^{T} x_{i}) \\ (6) & = & \sum_{i = 1}^{N} (1 - g (y_{i} θ^{T} x_{i})) \cdot y_{i} x_{i} \end{array}

$\begin{eqnarray} \frac{\partial}{\partial\boldsymbol{\theta}}J&=&\sum_{i=1}^{N}\frac{1}{g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})}\cdot \frac{\partial}{\partial\boldsymbol{\theta}}g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})\\ &=&\sum_{i=1}^{N}\frac{1}{g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})}\cdot g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})(1-g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\cdot \frac{\partial}{\partial\boldsymbol{\theta}}(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}) \\ &=&\sum_{i=1}^{N}(1-g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\cdot y_i\boldsymbol{x_i} \end{eqnarray}$
所以梯度下降的更新方程为：

θ = θ + \frac{α}{N} \sum_{i = 1}^{N} (1 - g (y_{i} θ^{T} x_{i})) \cdot y_{i} x_{i}

$\boldsymbol{\theta}=\boldsymbol{\theta}+\frac{\alpha}{N}\sum_{i=1}^{N}(1-g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\cdot y_i\boldsymbol{x_i}$

代码块

自己用python撸了个逻辑回归，有问题请留言评论区：

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import scale
from random import random
from numpy import random as nr
from sklearn.model_selection import train_test_split

def sigmoid(x):
    return 1/(1+np.exp(-x))

def RandSam(train_data, train_target, sample_num):#随机采样传入训练函数进行迭代
    data_num = train_data.shape[0]
    if sample_num > data_num:
        return -1
    else:
        data = []
        target = []
        for i in range(sample_num):
            tmp = nr.randint(0,data_num)
            data.append(train_data[tmp])
            target.append(train_target[tmp])
    return np.array(data),np.array(target)

class LogisticClassifier(object):
    alpha = 0.01
    circle = 1000
    l2 = 0.01
    weight = np.array([])
    def __init__(self, learning_rate, circle_num, L2):
        self.alpha = learning_rate
        self.circle = circle_num
        self.l2 = L2
    def fit(self, train_data, train_target):
        data_num = train_data.shape[0]
        feature_size = train_data.shape[1]
        ones = np.ones((data_num,1))
        train_data = np.hstack((train_data,ones))
        #Y = train_target
        self.weight = np.round(np.random.normal(0,1,feature_size+1),2)
        for i in range(self.circle):
            delta = np.zeros((feature_size+1,))
            X,Y = RandSam(train_data, train_target, 50)
            for j in range(50):
                delta += (1-sigmoid(Y[j]*np.dot(X[j],self.weight)))* \
                          Y[j]*X[j]
            self.weight += self.alpha*delta-self.l2*self.weight

    def predict(self, test_data):
        data_num = test_data.shape[0]
        ones = np.ones((data_num,1))
        X = np.hstack((test_data,ones))
        return sigmoid(np.dot(X,self.weight))

    def evaluate(self, predict_target, test_target):
        predict_target[predict_target>=0.5] = 1
        predict_target[predict_target<0.5] = -1
        return sum(predict_target==test_target)/len(predict_target)

if __name__ == "__main__":
    cancer = load_breast_cancer()
    xtr, xval, ytr, yval = train_test_split(cancer.data, cancer.target, \
    test_size=0.2, random_state=7)
    logistics = LogisticClassifier(0.01,2000, 0.01)
    logistics.fit(xtr, ytr)
    predict = logistics.predict(xval)
    print('the accuracy is ',logistics.evaluate(predict, yval),'.')