机器学习中的Logistics逻辑回归分析

参考文档:

        http://bluewhale.cc/2016-05-18/logistic-regression.html

        http://blog.csdn.net/armavrdsp/article/details/21614515

        http://blog.163.com/huai_jing@126/blog/static/1718619832011930826843/

       逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。

        一、我们首先讨论二分类的情况:

       例如,影响房屋价格的自变量有采光程度、交通便利程度、距离学校远近等等,而因变量就是购买房屋的可能性。这样,我们可以将自变量X(x1,x2,x3,x4...xp)(其中p是输入变量的维度)作为输入,因变量Y作为输出。通过对已有历史记录的分析,我们希望得到(X,Y)之间的关系,从而当再次输入X的时候,我们能够预测Y。这里我们使用Odds(购买与未购买的比值)表示这种关系。我们假设(X,Y)的关系为Y=β0+β1*X,在这里即 

       Odds(E)用如下方式表示:


       其中,P(E)是购买的概率,P(E’)是未购买的概率,

       Odds是一个从0到无穷的数字,Odds的值越大,表明事件发生的可能性越大。

       根据指数函数和对数规则获得以下公式:

                                                             

        最终得到预测购买的概率为:

                                                      

        因为最初的参数是假设,监督学习中的预测值和实际值有一定差距。而我们要达到很好的效果,就要使所有训练样本的预测值与实际值之间的误差之和最小。

       每个样本在所有分类中的概率误差为:。其中,P(X)为某N_i样本在某类K_j中的预测概率,y为该N_i样本在K_j类中的实际概率。    

       所有样本在所有分类中的概率误差为:     。要使总体误差最小,我们对参数β求导,并使导数为0。为求解,我们使用Newton-Raphon算法。在经过若干次迭代之后,误差趋于收敛。这样,我们会学到最终的参数。得到参数之后 ,我们可以利用和1-P(E)得到样本在这两个类上的概率。当某一样本在其中一个类上的概率大于在另一个类上的概率时(或在某个类上的概率大于0.5时),则该样本属于概率较大的类。

       二、接下来我们考虑多分类的情况:

       (1)多分类实际上可以分解为多个二分类,即不断进行二分类。当要判断第k分类时,属于第k分类的样本类别标为1,即;不属于第k分类的样本类别标为0,即。这样构成完全的二分类形式。

         当我们要进行第k分类的区分时,执行和<一>中二分类一样的形式。具体为:

                                                  

这里,表示预测样本为第k类时的概率,相应的参数为第k类的参数。则当预测样本不属于该类时,概率为

         我们结合已有样本,针对第k类别计算损失函数

                                            

        这样最终学到针对第k分类的参数。输入某未知x时,当针对第k类的预测概率大于0.5时,则判断该样本属于第k类;否则,不属于该类。在同理于其他分类。

       (2)另一种情况是我们可以直接进行多分类处理。这里需要一次估计所有分类的参数,而不是像二分类中只估计一个类别的参数。Pr的计算过程相同,所不同的是每个样本在每个类上的概率都要估计出来。在计算损失函数上也有不同:

                                                         

       其中是one-hot向量,当样本属于某一类时,该维度为1,其余都为0。至于学习过程,都一样(学习过程需要用到Newton-Raphson或者梯度下降的方法,我会在后续的博客中进行更新这样最终学到所有分类的参数。输入某未知x时,计算所有分类的概率,则概率最大的那个即为样本类别。

       Logistic回归有自身的优缺点:
       优点:计算代价不高,易于理解和实现
       缺点:容易欠拟合,分类精度可能不高
                  适用数据类型:数值型和标称型

            

       

       

 

     

 


猜你喜欢

转载自blog.csdn.net/LiuPeiP_VIPL/article/details/78287598
今日推荐