手推记录-logistic regression （逻辑斯蒂回归）

先看线性回归

h_{θ} (x) = θ_{0} x_{0} + θ_{1} x_{1} + \dots + θ_{n} x_{n} = θ^{T} x

$h_\theta(x)=\theta_0x_0+\theta_1x_1+\cdots+\theta_nx_n=\theta^Tx$

这里的n表示该样本有n维特征。
目标函数

J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

这里的i表示第i个样本。
为了求目标函数最小，采用梯度下降迭代,为了方便，假设只有一个样本

\begin{aligned} \frac{\partial}{\partial θ_{i}} J (θ) & = \frac{\partial}{\partial θ_{i}} \frac{1}{2} (h_{θ} (x) - y)^{2} \\ = (h_{θ} (x) - y) * \frac{\partial}{\partial θ_{i}} (h_{θ} (x) - y) \\ = (h_{θ} (x) - y) * \frac{\partial}{\partial θ_{i}} (θ_{0} x_{0} + θ_{1} x_{1} + \dots + θ_{i} x_{i} + \dots + θ_{n} x_{n} - y) \\ = (h_{θ} (x) - y) * x_{i} \end{aligned}

$\begin{align*} \frac{\partial }{\partial \theta_i}J(\theta)&=\frac{\partial }{\partial \theta_i}\frac{1}{2}(h_\theta(x)-y)^2 \\ &= (h_\theta(x)-y)*\frac{\partial }{\partial \theta_i}(h_\theta(x)-y)\\ &=(h_\theta(x)-y)*\frac{\partial }{\partial \theta_i}(\theta_0x_0+\theta_1x_1+\cdots+\theta_ix_i+\cdots+\theta_nx_n-y)\\ &=(h_\theta(x)-y)*x_i \end{align*}$

参数 $\theta_i$ 更新，

\begin{aligned} θ_{i} & := θ_{i} - α \frac{\partial}{\partial θ_{i}} J (θ) \\ = θ_{i} - α (h_{θ} (x) - y) * x_{i} \end{aligned}

$\begin{align*}\theta_i&:=\theta_i-\alpha \frac{\partial }{\partial \theta_i}J(\theta)\\&=\theta_i-\alpha(h_\theta(x)-y)*x_i \end{align*}$

在m个样本的情况下，

\begin{aligned} θ_{i} & := θ_{i} - α \frac{1}{m} \sum_{j = 1}^{m} (h_{θ} (x^{(j)}) - y^{(j)}) * x_{i}^{(j)} \end{aligned}

$\begin{align*}\theta_i&:=\theta_i-\alpha\frac{1}{m}\sum_{j=1}^{m}(h_\theta(x^{(j)})-y^{(j)})*x_i^{(j)} \end{align*}$
这样的梯度下降 每次更新都需要所有样本，称为批梯度下降。当样本数量多的时候，训练慢。

随机梯度下降法：它的具体思路是在更新每一参数时都使用一个样本来进行更新，

\begin{aligned} f o r j = 1 & t o m : \\ θ_{i} & = α (h_{θ} (x^{(j)}) - y^{(j)}) * x_{i}^{(j)} \end{aligned}

$\begin{align*} for\; j=1 \;&to\; m :\\ \theta_i&=\alpha(h_\theta(x^{(j)})-y^{(j)})*x_i^{(j)} \end{align*}$

但是随机梯度下降法不能得到最优解，只会在最优解附近徘徊。
局部加权线性回归，将目标函数添加权值修改为，

J (θ) = \frac{1}{2} \sum_{i = 1}^{m} w^{(i)} * (h_{θ} (x^{(i)}) - y^{(i)})^{2}

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m} w^{(i)}*(h_\theta(x^{(i)})-y^{(i)})^2$

其中，

w^{(i)} = e x p (- \frac{(x^{(i)} - x)^{2}}{2 τ^{2}}) ， τ 是 波 长 函 数 ， 控 制 权 值 下 降 速 率

$w^{(i)}=exp(-\frac{(x^{(i)}-x)^2}{2 \tau^2})，\tau 是波长函数，控制权值下降速率$

当 $(x^{(i)}-x)$ 很小的时候， $w^{(i)}$ 接近1，反之接近0。也就是说，距离x越近的样本 $x^{(i)}$ 获得的权值越高。

解释一下为什么用误差的平方和作为目标函数，
首先，

y^{(i)} = θ^{T} x^{(i)}

$y^{(i)}= \theta ^T x^{(i)}$

但是由于会有误差，所以还要加上一个误差项，

y^{(i)} = θ^{T} x^{(i)} + ξ_{i}

$y^{(i)}= \theta ^T x^{(i)}+\xi_i$

根据中心极限定理，由于误差项是好多好多相互独立的因素影响的综合影响，我们有理由假设其服从高斯分布，而且均值是0，方差为某个定值 $\delta^2$
因此，概率密度函数为，

P (ξ_{i}) = \frac{1}{\sqrt{2 π} δ} e x p (- \frac{ξ_{i}^{2}}{2 δ^{2}})

$P(\xi_i)=\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{\xi_i^2}{2 \delta^2})$

也就是，

P (y^{(i)} | x^{(i)}; θ) = \frac{1}{\sqrt{2 π} δ} e x p (- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 δ^{2}})

$P(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2})$

在给定一个 $\theta$ ，在 $x^{(i)}$ 的情况下，类别为 $y^{(i)}$ 的概率。
误差项又是相互独立的，那么 $\xi_i$ 似然函数，

\begin{aligned} L (θ) = p (y | x; θ) & = \prod_{i = 1}^{m} P (y^{(i)} | x^{(i)}; θ) \\ = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} δ} e x p (- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 δ^{2}}) \end{aligned}

$\begin{align*} L(\theta)=p(y|x;\theta)&=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)\\ &=\prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2}) \end{align*}$

对数似然，

\begin{aligned} l o g L (θ) & = l o g \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} δ} e x p (- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 δ^{2}}) \\ = m l o g \frac{1}{\sqrt{2 π} δ} + \sum_{i = 1}^{m} - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 δ^{2}} \end{aligned}

$\begin{align*} log\: L(\theta)&=log\prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi} \delta}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2}) \\ &=m log \frac{1}{\sqrt{2 \pi} \delta } +\sum_{i=1}^{m} -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2 \delta^2} \end{align*}$

为了使 $l(\theta)$ 极大，也就是让 $\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2} =J(\theta)$ 极小，这也就是损失函数。

逻辑斯蒂回归是一个分类算法，以二分类为例， $y \in {\{0,1\}}$ ，有了线性回归的基础，那么逻辑斯蒂回归就是要让 $h_\theta(x)$ 的值在0~1闭区间。即，

h_{θ} (x) = g (h_{θ} (x)) = 1 + e^{\frac{1}{- θ^{T} x}}

$h_\theta(x)=g(h_\theta(x))=1+e^{\frac{1}{-\theta^Tx}}$

其中 $g$ 函数称为logistic函数，或者sigmoid函数。
y取1的概率等于 $h_\theta(x)$ ,取0的概率为 $1-h_\theta(x)$ ，即，

p (y | x; θ) = h_{θ} (x)^{y} (1 - h_{θ} (x))^{1 - y}

$p(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y}$

似然函数，

\begin{aligned} L (θ) = p (y | x; θ) & = \prod_{i = 1}^{m} P (y^{(i)} | x^{(i)}; θ) \\ = \prod_{i = 1}^{m} h_{θ} (x^{(i)})^{y^{(i)}} (1 - h_{θ} (x^{(i)}))^{1 - y^{(i)}} \end{aligned}

$\begin{align*} L(\theta)=p(y|x;\theta)&=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)\\ &=\prod_{i=1}^{m}h_\theta(x^{(i)})^{y^{(i)}} (1-h_\theta(x^{(i)}))^{1-y^{(i)}} \end{align*}$

对数似然，

\begin{aligned} l (θ) & = l o g L (θ) \\ = \sum_{i = 1}^{m} y^{(i)} l o g h_{θ} (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)})) \end{aligned}

$\begin{align*}l(\theta)&=log\: L(\theta)\\ &=\sum_{i=1}^{m} y^{(i)}\:log \:h_\theta(x^{(i)})+ (1-y^{(i)})log(1-h_\theta(x^{(i)})) \end{align*}$

梯度下降法，参数迭代，

\begin{aligned} θ_{i} & := θ_{i} + α \frac{1}{m} \sum_{j = 1}^{m} (y^{(j)} - h_{θ} (x^{(j)})) * x_{i}^{(j)} \end{aligned}

$\begin{align*}\theta_i&:=\theta_i+\alpha\frac{1}{m}\sum_{j=1}^{m}(y^{(j)}-h_\theta(x^{(j)}))*x_i^{(j)} \end{align*}$

线性回归和逻辑斯蒂回归迭代方式表面上一模一样，但是 $h_\theta$ 函数并不相同。

手推记录-logistic regression （逻辑斯蒂回归）

猜你喜欢