Logistic Regression算法笔记

机器学习中的逻辑回归Logistic Regression

假设数据服从 u=0, s=1 的逻辑斯蒂分布
logistic回归为什么要使用sigmoid函数

Logistic Function

逻辑回归（Logistic Regression）的名称是由其使用的核心函数–Logistic function得来的。

Logistic函数也叫作Sigmoid函数，最初由统计学家发明用来描述生态学中人口增长的特点。起初阶段大致是指数增长然后随着接近环境容量开始变得饱和，增加变慢；最后，达到成熟时增加停止。

Logistic 函数曲线是S型，能将任何实数映射到0~1之间，但又无法达到其极限。

σ (z) = \frac{1}{1 + e^{- z}}

$\sigma (z) = \frac{1}{1 + e^{-z}}$

Representation Used for Logistic Regression

Logistic regression的公式表达出来很像线性回归。
逻辑回归与线性回归的关键不同在于：线性回归的输出值为二元值（0、1）而不是概率数值。
将输入变量(x)与权重(weights)或偏差系数（ $\beta$ ）线性结合来预测输出值(y)

\hat{y} = σ (w^{T} x + b) == \frac{e^{w^{T} x + b}}{1 + e^{w^{T} x + b}}

$\hat{y}=\sigma (w^{T}x+b) ==\frac{e^{w^{T}x+b}}{1 + e^{w^{T}x+b}}$
其中

w^{T}

$w^{T}$ 是单一输入变量x的权重系数，b是噪音系数。你输入数据的每一列都有一个相关联的实数常量系数b，其由训练学习而来。

Logistic Regression损失函数

假设有m组训练样本 ${(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})}$ ,你需要训练你模型的参数使 $\hat{y}^{(i)} \approx y^{(i)}$
Loss(error) function:

L (\hat{y}, y) = - (y \log \hat{y} + (1 - y) \log (1 - \hat{y}))

$L(\hat{y},y)=-(y \log \hat{y}+(1-y)\log(1-\hat{y}))$
Why not 为什么不使用误差平方和来作为代价函数：

L (\hat{y}, y) = \frac{1}{2} (\hat{y} - y)^{2}

$L(\hat{y},y)=\frac{1}{2}(\hat{y}-y)^{2}$
这时候的代价函数是非凸的，也就是函数图像中会出现许多的局部最小值，导致梯度下降法极其容易得到局部最小值。如下：
enter image description here

Cost function:

J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{i}, y^{i}) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{i} \log {\hat{y}}^{i} + (1 - y^{i}) \log (1 - {\hat{y}}^{i})]

$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{i},y^{i})=-\frac{1}{m}\sum_{i=1}^{m}[y^{i} \log \hat{y}^{i}+(1-y^{i})\log(1-\hat{y}^{i})]$

Sigmod函数求导

\begin{matrix} (1) & \begin{aligned} σ^{'} (z) & = {\frac{1}{1 + e^{- z}}}^{'} \\ = \frac{d}{d z} \frac{1}{1 + e^{- z}} \\ = \frac{e^{- z}}{(1 + e^{- z})^{2}} \\ = \frac{1 + e^{- z} - 1}{1 + e^{- z}} \cdot \frac{1}{1 + e^{- z}} \\ = \frac{1}{1 + e^{- z}} \cdot (1 - \frac{1}{1 + e^{- z}}) \\ = σ (z) [1 - σ (z)] \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} {\sigma}' (z) &= {\frac{1}{1 + e^{-z}}}' \\ &=\frac{d}{dz}\frac{1}{1 + e^{-z}} \\ &= \frac{e^{-z}}{(1+e^{-z})^{2}} \\ &=\frac{1+e^{-z}-1}{1+e^{-z}}\cdot \frac{1}{1+e^{-z}} \\ &=\frac{1}{1 + e^{-z}}\cdot (1-\frac{1}{1 + e^{-z}})\\ &=\sigma (z) [1-\sigma (z) ]\\ \end{aligned} \end{equation}$
逻辑回归中我们的目标就是最小化损失函数