机器学习算法——逻辑回归

原理:

逻辑回归处理的是分类问题，具体来说，是处理二分类问题。为了实现逻辑回归分类器，我们可以在线性回归的基础上。添加一个sigmoid函数，进而得到一个范围在0~1之间的数值。任何大于0.5的数据会被分为1类，小于0.5即被分为0类。至于为什么会用到sigmoid函数，简单来说，是为了将标签归类为[0,1]的范围内；深层原因，sigmoid函数的使用是由指数分布族决定的。

预测值为：

优点：
1）速度快，适合二分类问题
2）简单易于理解，直接看到各个特征的权重
3）能容易地更新模型吸收新的数据
缺点：
对数据和场景的适应能力有局限性，不如决策树算法适应性那么强。

问逻辑回归的代价函数为什么用最大似然估计而不是最小二乘法？

1.可以证明逻辑归回的最小二乘法的代价函数不是关于分布参数θ的凸函数，求解过程中，会得到局部最优，不容易得到全局最优。但逻辑回归的对数似然函数可证明是关于θ的凸函数，且有最大值。

2.因为逻辑回归不是一种回归，而是一种分类算法。而逻辑回归的假设函数是属于指数分布族，且逻辑回归的样本给予满足伯努利分布而进行训练的，最大似然估计的出发点就是使得当前样本发生的可能性最大化，反向支持逻辑回归样本满足伯努利分布，而最小二乘法只是让预测值和真实值更拟合，而最大似然估计是保证计算出的特征值发生的概率正确率最大化，最大似然估计更满足逻辑回归是一种分类器。