机器学习中的Logistics逻辑回归分析

参考文档：

http://bluewhale.cc/2016-05-18/logistic-regression.html

http://blog.csdn.net/armavrdsp/article/details/21614515

http://blog.163.com/huai_jing@126/blog/static/1718619832011930826843/

逻辑回归(Logistic Regression, LR)又称为逻辑回归分析，是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。

一、我们首先讨论二分类的情况：

例如，影响房屋价格的自变量有采光程度、交通便利程度、距离学校远近等等，而因变量就是购买房屋的可能性。这样，我们可以将自变量X(x1,x2,x3,x4...xp)(其中p是输入变量的维度)作为输入，因变量Y作为输出。通过对已有历史记录的分析，我们希望得到（X,Y）之间的关系，从而当再次输入X的时候，我们能够预测Y。这里我们使用Odds（购买与未购买的比值）表示这种关系。我们假设(X,Y)的关系为Y=β0+β1*X，在这里即。

Odds(E)用如下方式表示：

其中，P(E)是购买的概率，P(E’)是未购买的概率，

Odds是一个从0到无穷的数字，Odds的值越大，表明事件发生的可能性越大。

根据指数函数和对数规则获得以下公式：

最终得到预测购买的概率为：

因为最初的参数是假设，监督学习中的预测值和实际值有一定差距。而我们要达到很好的效果，就要使所有训练样本的预测值与实际值之间的误差之和最小。

每个样本在所有分类中的概率误差为：。其中，P(X)为某N_i样本在某类K_j中的预测概率，y为该N_i样本在K_j类中的实际概率。

所有样本在所有分类中的概率误差为：。要使总体误差最小，我们对参数β求导，并使导数为0。为求解，我们使用Newton-Raphon算法。在经过若干次迭代之后，误差趋于收敛。这样，我们会学到最终的参数。得到参数之后，我们可以利用和1-P(E)得到样本在这两个类上的概率。当某一样本在其中一个类上的概率大于在另一个类上的概率时（或在某个类上的概率大于0.5时），则该样本属于概率较大的类。