逻辑回归为什么使用对数损失函数

线性回归损失函数为什么要用平方形式 :

对于训练数据样本 (xi,yi) ,我们有如下的拟合直线:

yˆi=θ0+θ1xi

我们构建了一个损失函数:
C=i=1n(yiyˆi)2

表示每个训练数据点 (xi,yi) 到拟合直线 yˆi=θ0+θ1xi 的竖直距离的平方和,通过最小化这个损失函数来求得拟合直线的最佳参数 θ ,实际上就是求损失函数C在取得最小值情况下 θ 的值。那么损失函数为什么要用平方差形式呢,而不是绝对值形式,一次方,三次方,或四次方形式?

简单的说,是因为使用平方形式的时候,使用的是“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。

最小二乘法以估计值与观测值的平方和作为损失函数,在误差服从正态分布的前提下,与极大似然估计的思想在本质上是相同。对于极大似然估计,可以参考下前期文章《极大似然估计》。
我们设观测输出与预估数据之间的误差为:

εi=yiyˆi


我们通常认为 ε 服从正态分布,即:
f(εi;u,σ2)=1σ2πexp[(εiu)22σ2]


我们求的参数 ε 的极大似然估计 (u,σ2) ,即是说,在某个 (u,σ2) 下,使得服从正态分布的 ε 取得现有样本 εi 的概率最大。那么根

据极大似然估计函数的定义,令:
L(u,σ2)=i=1n12πσexp((εiu)22σ2)


取对数似然函数:
logL(u,σ2)=n2logσ2n2log2πi=1n(εiu)22σ2



分别求 (u,σ2) 的偏导数,然后置0,最后求得参数 (u,σ2) 的极大似然估计为:



u=1ni=1nεi



σ2=1ni=1n(εiu)2


我们在线性回归中要求得最佳拟合直线 yˆi=θ0+θ1xi ,实质上是求预估值 yˆi 与观测值 yi 之间的误差 εi 最小(最好是没有误

差)的情况下 θ 的值。而前面提到过, ε 是服从参数 (u,σ2) 的正态分布,那最好是均值 u 和方差 σ 趋近于0或越小越好。即:


u=1ni=1nεi=1ni=1n(yiyˆi) 趋近于0或越小越好


σ2=1ni=1n(εiu)2=1ni=1n(yiyˆiu)21ni=1n(yiyˆi)2 趋近于0或越小越好。


而这与最前面构建的平方形式损失函数本质上是等价的。


逻辑回归为什么使用对数损失函数

逻辑回归模型是: 


P(y=1|x;θ)=11+eθTx


在模型的数学形式确定后,剩下的就是如何去求解模型中的参数 θ 。而在已知模型和一定样本的情况下,估计模型的参数,在统计学中常用的是极大似然估计方法。即找到一组参数 θ ,使得在这组参数下,样本数据的似然度(概率)最大。对于极大似然估计,可以参考下前期文章《极大似然估计》。

对于逻辑回归模型,假定的概率分布是伯努利分布,根据伯努利分布的定义,其概率质量函数PMF为:



P(X=n)={1pn=0pn=1

所以,似然函数可以写成:

L(θ)=i=1mP(y=1|xi)yiP(y=0|xi)1yi

对数似然函数则为:


lnL(θ)=i=1m[yilnP(y=1|xi)+(1yi)lnP(y=0|xi)]



lnL(θ)=i=1m[yilnP(y=1|xi)+(1yi)ln(1P(y=1|xi))]


而在机器学习领域,我们经常使用损失函数(loss function,或称为代价函数,cost function)来衡量模型预测的好坏。常用的有0-1损失,平方损失,绝对损失,对数损失等。其中对数损失在单个数据点上的定义为:


cost(y,p(y|x))=ylnp(y|x)(1y)ln(1p(y|x))

全体样本的损失函数则可表达为:


cost(y,p(y|x))=i=1m[yilnp(yi|xi)+(1yi)ln(1p(yi|xi))]

可以看到,这个对数损失函数与上面的极大似然估计的对数似然函数本质上是等价的。所以逻辑回归直接采用对数损失函数来求参数,实际上与采用极大似然估计来求参数是一致的。


原博文地址:http://blog.csdn.net/saltriver/article/details/57544704

                        http://blog.csdn.net/saltriver/article/details/63683092




发布了7 篇原创文章 · 获赞 3 · 访问量 1万+

线性回归损失函数为什么要用平方形式 :

对于训练数据样本 (xi,yi) ,我们有如下的拟合直线:

yˆi=θ0+θ1xi

我们构建了一个损失函数:
C=i=1n(yiyˆi)2

表示每个训练数据点 (xi,yi) 到拟合直线 yˆi=θ0+θ1xi 的竖直距离的平方和,通过最小化这个损失函数来求得拟合直线的最佳参数 θ ,实际上就是求损失函数C在取得最小值情况下 θ 的值。那么损失函数为什么要用平方差形式呢,而不是绝对值形式,一次方,三次方,或四次方形式?

简单的说,是因为使用平方形式的时候,使用的是“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。

最小二乘法以估计值与观测值的平方和作为损失函数,在误差服从正态分布的前提下,与极大似然估计的思想在本质上是相同。对于极大似然估计,可以参考下前期文章《极大似然估计》。
我们设观测输出与预估数据之间的误差为:

εi=yiyˆi


我们通常认为 ε 服从正态分布,即:
f(εi;u,σ2)=1σ2πexp[(εiu)22σ2]


我们求的参数 ε 的极大似然估计 (u,σ2) ,即是说,在某个 (u,σ2) 下,使得服从正态分布的 ε 取得现有样本 εi 的概率最大。那么根

据极大似然估计函数的定义,令:
L(u,σ2)=i=1n12πσexp((εiu)22σ2)


取对数似然函数:
logL(u,σ2)=n2logσ2n2log2πi=1n(εiu)22σ2



分别求 (u,σ2) 的偏导数,然后置0,最后求得参数 (u,σ2) 的极大似然估计为:



u=1ni=1nεi



σ2=1ni=1n(εiu)2


我们在线性回归中要求得最佳拟合直线 yˆi=θ0+θ1xi ,实质上是求预估值 yˆi 与观测值 yi 之间的误差 εi 最小(最好是没有误

差)的情况下 θ 的值。而前面提到过, ε 是服从参数 (u,σ2) 的正态分布,那最好是均值 u 和方差 σ 趋近于0或越小越好。即:


u=1ni=1nεi=1ni=1n(yiyˆi) 趋近于0或越小越好


σ2=1ni=1n(εiu)2=1ni=1n(yiyˆiu)21ni=1n(yiyˆi)2 趋近于0或越小越好。


而这与最前面构建的平方形式损失函数本质上是等价的。


逻辑回归为什么使用对数损失函数

逻辑回归模型是: 


P(y=1|x;θ)=11+eθTx


在模型的数学形式确定后,剩下的就是如何去求解模型中的参数 θ 。而在已知模型和一定样本的情况下,估计模型的参数,在统计学中常用的是极大似然估计方法。即找到一组参数 θ ,使得在这组参数下,样本数据的似然度(概率)最大。对于极大似然估计,可以参考下前期文章《极大似然估计》。

对于逻辑回归模型,假定的概率分布是伯努利分布,根据伯努利分布的定义,其概率质量函数PMF为:



P(X=n)={1pn=0pn=1

所以,似然函数可以写成:

L(θ)=i=1mP(y=1|xi)yiP(y=0|xi)1yi

对数似然函数则为:


lnL(θ)=i=1m[yilnP(y=1|xi)+(1yi)lnP(y=0|xi)]



lnL(θ)=i=1m[yilnP(y=1|xi)+(1yi)ln(1P(y=1|xi))]


而在机器学习领域,我们经常使用损失函数(loss function,或称为代价函数,cost function)来衡量模型预测的好坏。常用的有0-1损失,平方损失,绝对损失,对数损失等。其中对数损失在单个数据点上的定义为:


cost(y,p(y|x))=ylnp(y|x)(1y)ln(1p(y|x))

全体样本的损失函数则可表达为:


cost(y,p(y|x))=i=1m[yilnp(yi|xi)+(1yi)ln(1p(yi|xi))]

可以看到,这个对数损失函数与上面的极大似然估计的对数似然函数本质上是等价的。所以逻辑回归直接采用对数损失函数来求参数,实际上与采用极大似然估计来求参数是一致的。


原博文地址:http://blog.csdn.net/saltriver/article/details/57544704

                        http://blog.csdn.net/saltriver/article/details/63683092




猜你喜欢

转载自blog.csdn.net/hanxu117160/article/details/70599142
今日推荐