【机器学习】逻辑回归过程推导

目录:
一、LR的基本原理。
二、LR的具体过程,包括:选取预测函数,求解Cost函数和J(θ),梯度下降法求J(θ)的最小值。
三、对《机器学习实战》中给出的实现代码进行了分析,对阅读该书LR部分遇到的疑惑进行了解释。比如:一般都是用梯度下降法求损失函数的最小值,为何这里用梯度上升法呢?书中说用梯度上升法,为何代码实现时没见到求梯度的代码呢?

一、LR的基本原理
Logistic Regression和Linear Regression的原理是相似的,按照我自己的理解,可以简单的描述为:
(1)找一个合适的预测函数,一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程非常关键,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。
(2)构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(θ)函数,表示所有训练数据预测值与实际类别的偏差。
(3)显然,J(θ)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法,Logistic Regression实现时用的是梯度下降法(Gradient Descent)。

二、LR的具体过程

(1)构造预测函数
Logistic Regression虽然名字里带“回归”,但它实际上是一种分类方法,用于两分类问题(即输出只有两种)。首先,需要先找到一个预测函数(h),显然,该函数的输出必须是两个值(分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:
这里写图片描述

对应的函数图像是一个取值在0和1之间的S型曲线。

这里写图片描述

接下来需要确定数据划分的边界类型,对于图2和图3中的两种数据分布,显然图2需要一个线性的边界,而图3需要一个非线性的边界。接下来我们只讨论线性边界的情况。
这里写图片描述

图二

这里写图片描述

图三

对于线性边界的情况,边界形式如下:

这里写图片描述

构造预测函数为:

这里写图片描述

hθ(x)函数的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
这里写图片描述

(2)构造cost函数
Andrew Ng在课程中直接给出了Cost函数及J(θ)函数如式(5)和(6),但是并没有给出具体的解释,只是说明了这个函数来衡量h函数预测的好坏是合理的。
这里写图片描述

这里写图片描述

实际上这里的Cost函数和J(θ)函数是基于最大似然估计推导得到的。下面详细说明推导的过程。(4)式综合起来可以写成:
这里写图片描述

取似然函数为:
这里写图片描述

对数似然函数为:
这里写图片描述

最大似然估计就是要求得使l(θ)取最大值时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数。但是,在Andrew Ng的课程中将J(θ)取为(6)式,即:
这里写图片描述

因为乘了一个负的系数-1/m,所以J(θ)取最小值时的θ为要求的最佳参数。

(3)梯度下降法求J(θ)的最小值

求J(θ)的最小值可以使用梯度下降法,根据梯度下降法可得θ的更新过程:
这里写图片描述

式中为α学习步长,下面来求偏导:
这里写图片描述

上式求解过程中用到如下的公式:
这里写图片描述

因此,(11)式的更新过程可以写成:
这里写图片描述

因为式中α本来为一常量,所以1/m一般将省略,所以最终的θ更新过程为:
这里写图片描述

另外,求得l(θ)取最大值时的θ也是一样的,用梯度上升法求(9)式的最大值,可得:
这里写图片描述

观察上式发现跟(14)是一样的,所以,采用梯度上升发和梯度下降法是完全一样的,这也是《机器学习实战》中采用梯度上升法的原因。

本文转自 Logistic回归总结 作者:洞庭之子 没有找到原文链接。

猜你喜欢

转载自blog.csdn.net/zhuanzhe117/article/details/82593536
今日推荐