注意：
　　建议有条件的童鞋去Coursera上学习，不仅免费还精心准备了很多联系帮助理解，以下是链接（看视频需要翻墙）：
　　https://www.coursera.org/learn/machine-learning/

逻辑回归的代价函数

　　上一章已经说明了逻辑回归解决的是什么类型的问题，以及拟合函数的形式。接下来就看看如何得到 $h(\vec x)$ 的特征向量 $\vec \theta$ 的最优解。

　　在前面两周的笔记中已经知道了线性回归的代价函数：

J (θ ⃗) = 1 2 m \sum i = 0 n (h θ (x ⃗) - y) 2

$J(\vec \theta) = \frac {1} {2m} \sum_{i=0}^n {(h_\theta(\vec x)-y)^2}$

　　如果在逻辑回归问题中，我们继续使用上述的代价函数 $J(\vec \theta)$ 就不是一个凸函数（convex function），最终的结果可能是 $\vec \theta$ 收敛到了一个局部最优解，而不是全局最优解如下图（至于为什么，嗯……，我的数学也不是很6）。因此，逻辑回归的代价函数需要改变一下。
　
non-convex function
　

这个设计过程理解吗?

　　当 $y=1$ 时，我们令 $Cost(h_\theta(\vec x),y) = -\log(h_\theta(\vec x))$ 。因为 $h_\theta(\vec x) \ge 0.5$ ，且由上一章内容可知
　　

lim z \to + \infty g (z) = 1 \Rightarrow lim θ ⃗ T x ⃗ \to + \infty h θ (x ⃗) = 1 \Rightarrow lim θ ⃗ T x ⃗ \to + \infty - log (h θ (x ⃗)) = 0

$\lim_{z \to +\infty} g(z) = 1 \Rightarrow \lim_{\vec \theta^T \vec x \to +\infty} h_\theta(\vec x) = 1 \Rightarrow \lim_{\vec \theta^T \vec x \to +\infty} -\log(h_\theta(\vec x)) = 0$

　　 $Cost(h_\theta(\vec x),y)$ 随 $h_\theta(\vec x)$ 变化情况如图：
　
Ye1
　
　
　　当 $y=0$ 时，我们令 $Cost(h_\theta(\vec x),y) = -\log(1-h_\theta(\vec x))$ 。同样可以做出曲线图：
　
Ye0
　
　　这样，我们就得到了一个形状是凸函数的代价函数了。有没有很神奇的感觉呢？（⊙o⊙）
　　

C o s t (h θ (x ⃗, y)) = {- log (h θ (x ⃗)), y = 1 - log (1 - h θ (x ⃗)), y = 0

$Cost(h_\theta(\vec x,y)) = \begin{cases} -\log(h_\theta(\vec x)) \ \ \ \ \ \ \ \ \ \ ,y=1 \\ -\log(1-h_\theta(\vec x)) \ \ \ ,y=0 \end{cases}$
　
　　如果有“每一句话我都理解，但是合到一起就有点不清白了”这样的感觉也没关系。可以先试着回忆一下代价函数是用来做什么的？其含义又是什么？（含义就是拟合函数的预测值与实际值得偏差）如果还是有些不清楚，这也不要紧，并不影响我们对这个算法的应用。

简化代价函数

　　不管是手写还是敲代码，我觉得写一个分段函数出来还是挺烦人的哈。下面，更加神奇的事情就要发生了！！！我们要把上面的代价函数用一行式子写出来！！！★~★

C o s t (h θ (x ⃗, y)) = - y log (h θ (x ⃗)) - (1 - y) log (1 - h θ (x ⃗))

$Cost(h_\theta(\vec x,y)) = -y\log(h_\theta(\vec x))-(1-y)\log(1-h_\theta(\vec x))$

　　好神奇吧~~接下来我们就可以顺利的写出函数 $J(\vec \theta)$ 了，和线性回归区别不大：
　　

J (θ ⃗) = 1 m \sum i = 1 m C o s t (h θ (x ⃗ (i)), y (i))) = - 1 m \sum i = 1 m (y (i) log (h θ (x ⃗ (i))) + (1 - y (i)) log (1 - h θ (x ⃗ (i))))

$\begin{align} J(\vec \theta) & = \frac {1} {m} \sum_{i=1}^{m} {Cost(h_\theta(\vec x^{(i)}),y^{(i)}))} \\ & = \color{#A00}{ -\frac {1} {m} \sum_{i=1}^{m} {\Bigl( y^{(i)}\log(h_\theta(\vec x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(\vec x^{(i)})) \Bigr)} } \end{align}$

　　注：这里除的是 $m$ 而不像线性回归中那样除 $2m$ ，原因很简单，仅仅是由于这样设置对于后续的梯度下降算法来说更容易计算偏导数。

梯度下降算法计算最优的特征向量

　　嗯……还记得第一章说的梯度下降算法吗？

　　在逻辑回归中只用照搬就好了，所以说这一章也没有多大难度(^__^)

　　如果觉得求 $\frac {\partial} {\partial \theta_j} {J(\vec \theta)}$ 有点麻烦，没关系下面就是公式直接用。

\partial \partial θ j J (θ ⃗) h θ (x ⃗ (i)) = 1 m \sum i = 1 m ((h θ (x ⃗ (i)) - y (i)) x (i) j) = 1 1 + e - θ ⃗ T x ⃗ ( i )

$\begin{align} \frac {\partial} {\partial \theta_j} {J(\vec \theta)} & = \frac {1} {m} {\sum_{i=1}^m {\Bigl( (h_\theta(\vec x^{(i)})-y^{(i)})x^{(i)}_j} \Bigr)} \\ h_\theta(\vec x^{(i)}) & = \frac {1} {1+e^{-\vec \theta^T \vec x^{(i)}}} \end{align}$

　　想直接用向量表示也没问题：

\nabla J (θ ⃗) = 1 m \cdot X T \cdot (g (X \cdot θ ⃗) - y ⃗)

$\nabla J(\vec \theta) = \frac {1} {m} \cdot X^T \cdot \Bigl ( g(X \cdot \vec \theta) - \vec y \Bigr )$

　　当然这里所说的梯度下降算法是最容易理解的一种方法，其实还有很多求最优解的算法。而且，很多算法都不需要我们自己去尝试选择 $\alpha$ ，相对的这些算法更复杂，理解起来也很有挑战性。可喜的是，在实际应用中我们并与需要知道，只要能够从包或者库中调用就好了。
　　

小结

　　逻辑回归主要部分就差不多了，下一章分享过拟合（Over Fitting）问题。

跟着Andrew Ng挑战Machine Learning（第三周）Part 2：逻辑回归的代价函数

逻辑回归的代价函数

这个设计过程理解吗?

简化代价函数

梯度下降算法计算最优的特征向量

小结

猜你喜欢