分类和逻辑回归（Classification and logistic

regression）

我们接着线性回归的问题，在实际问题中，我们不仅需要得出具体的预测数值，我们还需要将数据进行分类。例如，垃圾邮件识别程序，需要将邮件识别为正常邮件（标记为+1），垃圾邮件（标记为 0）。这是一个典型的分类问题。

逻辑回归（ logistic）

我们拿垃圾邮件二分类（c1（正常）,c2（垃圾））举例，需要找到一个概率 $p(c1|x)$ ，当 $p(c1|x)>0.5$ 时候是分类c1，当 $p(c1|x)<0.5$ 的时候的分类是c2。
这个时候我们就找到一个回归函数。

回归函数

$z=w*x+b$ 当 $\sigma (z)$ 输出大于0.5时候为C1，小于0.5的时候为c2
这里写图片描述

我们又开始机器学习三板斧了：

第一步：定义一个函数集合

这里写图片描述

第二步：判断一个函数的好坏

我们的数据集是（x,C）（输入x，x的分类C（正常邮件，垃圾邮件））
这里写图片描述
接下来我们定义逻辑回归好坏的判定公式：给一组我w，b，我们针对每一组数据的概率，他们的乘积就是同时发生的概率（概率论）

我们找到的w,b 就是

通过推导，公式取对数，前面再加符号，等价于把乘法变成加法，求最大值，也变成了求最小值。(crossentropy的概念也就推导出来）
这里写图片描述
熵的概念本来是热力学的一个概念，描述物质的混乱程度。在这里，我们用交叉熵的概念来描述两组不同概率数据分布的相似程度，越小越相似。（这个概念在机器学习中非常重要）