对数几率回归(Logistic Regression)总结

对数几率回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下:

回归问题:预测一个连续的输出。
分类问题:离散输出,比如二分类问题输出0或1.

逻辑回归常用于垃圾邮件分类,天气预测、疾病判断和广告投放。

一、Logistic回归假设函数

对于一个分类问题,希望找到一个预测函数hθ(x),使得:

这里写图片描述

只有发生“y=1”(正例)与不发生“y=0”(反例)两种结果(分类问题)

sigmoid函数可以满足这个性质:
这里写图片描述
这里写图片描述

其中的θTx是一个线性的函数

所以发生与不发生的概率:

这里写图片描述

对数几率:

这里写图片描述 = 这里写图片描述

二、代价函数

为了估计参数θ,我们如果采用线性回归的代价函数作为logistic的代价函数,如下:
(注:线性回归的参数可以用梯度下降法和最小二乘法来求得,最小二乘法能求出固定形式的解析解)

这里写图片描述

其中,i表示第i个样本,y(i)是真实值,hθ(x(i))是预测的值

酱的话求min代价函数J(θ)将会非常复杂,有多个局部最小值,也就是非凸的,如下所示:

这里写图片描述

我们希望的代价函数是这样的……

这里写图片描述

所以,我们用最大化似然函数的方法来估计参数……

这里写图片描述

对数似然函数如下(max):

这里写图片描述
这里写图片描述

即令每个样本属于其真实标记的概率越大越好,对数似然函数L(θ)是高阶连续可导的凸函数,由凸优化理论可以根据梯度下降法、牛顿法等求最优解θ。

所以,logistic回归的代价函数(min):

这里写图片描述

三、过拟合问题

对于线性回归或逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合(就是过分拟合了训练数据),使得模型的复杂度提高,泛化能力较差(对未知数据的预测能力)。
下面左图即为欠拟合,中图为合适的拟合,右图为过拟合。

这里写图片描述

问题的主因
过拟合问题往往源自过多的特征。

解决方法
1)减少特征数量x(减少特征会失去一些信息,即使特征选的很好)
可用人工选择要保留的特征;
模型选择算法;
2)正则化,加上惩罚项(特征较多时比较有效)
保留所有特征,但减少θ的大小,即,对那些容易导致过拟合的θ进行惩罚

正则化方法
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。
以多项式回归为例。左图是适当拟合,右图是过拟合。

这里写图片描述

lambda是正则项系数:
如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;
如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:

这里写图片描述

四、逻辑回归的优缺点

优点:

1)它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释;
4)它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题;
5)对数几率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。

缺点:

1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;

2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

                    <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/production/markdown_views-ea0013b516.css">
                        </div>

对数几率回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下:

回归问题:预测一个连续的输出。
分类问题:离散输出,比如二分类问题输出0或1.

逻辑回归常用于垃圾邮件分类,天气预测、疾病判断和广告投放。

一、Logistic回归假设函数

对于一个分类问题,希望找到一个预测函数hθ(x),使得:

这里写图片描述

只有发生“y=1”(正例)与不发生“y=0”(反例)两种结果(分类问题)

sigmoid函数可以满足这个性质:
这里写图片描述
这里写图片描述

其中的θTx是一个线性的函数

所以发生与不发生的概率:

这里写图片描述

对数几率:

这里写图片描述 = 这里写图片描述

二、代价函数

为了估计参数θ,我们如果采用线性回归的代价函数作为logistic的代价函数,如下:
(注:线性回归的参数可以用梯度下降法和最小二乘法来求得,最小二乘法能求出固定形式的解析解)

这里写图片描述

其中,i表示第i个样本,y(i)是真实值,hθ(x(i))是预测的值

酱的话求min代价函数J(θ)将会非常复杂,有多个局部最小值,也就是非凸的,如下所示:

这里写图片描述

我们希望的代价函数是这样的……

这里写图片描述

所以,我们用最大化似然函数的方法来估计参数……

这里写图片描述

对数似然函数如下(max):

这里写图片描述
这里写图片描述

即令每个样本属于其真实标记的概率越大越好,对数似然函数L(θ)是高阶连续可导的凸函数,由凸优化理论可以根据梯度下降法、牛顿法等求最优解θ。

所以,logistic回归的代价函数(min):

这里写图片描述

三、过拟合问题

对于线性回归或逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合(就是过分拟合了训练数据),使得模型的复杂度提高,泛化能力较差(对未知数据的预测能力)。
下面左图即为欠拟合,中图为合适的拟合,右图为过拟合。

这里写图片描述

问题的主因
过拟合问题往往源自过多的特征。

解决方法
1)减少特征数量x(减少特征会失去一些信息,即使特征选的很好)
可用人工选择要保留的特征;
模型选择算法;
2)正则化,加上惩罚项(特征较多时比较有效)
保留所有特征,但减少θ的大小,即,对那些容易导致过拟合的θ进行惩罚

正则化方法
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。
以多项式回归为例。左图是适当拟合,右图是过拟合。

这里写图片描述

lambda是正则项系数:
如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;
如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:

这里写图片描述

四、逻辑回归的优缺点

优点:

1)它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释;
4)它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题;
5)对数几率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。

缺点:

1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;

2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

                    <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/production/markdown_views-ea0013b516.css">
                        </div>

猜你喜欢

转载自blog.csdn.net/qq_32126633/article/details/79828250
今日推荐