Logistic 回归 (LR)推导

Logistic 回归是一个常用的分类模型以及神经网络的基础。

二项逻辑斯谛回归
Logistic 回归的思想是将线性模型用来做分类任务,需要找到一个单调可微函数将分类任务的真实标记 y 与线性回归模型的预测值联系在一起(广义线性模型)。

这里,我们选取一个可以代替单位阶跃函数(不连续)的函数即对数几率函数(Logistic function),它是一种 Sigmoid 函数即形似 S 的函数。

y = 1 1 + e z

h θ ( x ) = g ( θ T x ) = 1 1 + e θ T x

因为 h θ ( x ) 本身代表着结果取 1 的概率,因为可以得到以下概率形式:

P ( y = 1 | x ; θ ) = h θ ( x )

P ( y = 0 | x ; θ ) = 1 h θ ( x )

两者合并,得到条件概率

P ( y | x ; θ ) = ( h θ ( x ) ) y ( 1 h θ ( x ) ) 1 y

至此,我们已经得到了 L o g i s t i c 模型。

对于模型的参数估计,我们采取的策略是应用 极大似然估计法
对于 P ( y | x ; θ ) 似然函数为

L ( θ ) = i = 1 N ( h θ ( x i ) ) y i ( 1 h θ ( x i ) ) 1 y i

关于似然函数的理解,如果概率论忘得差不多了,可以参考这两篇文章:
http://fangs.in/post/thinkstats/likelihood/
http://yangfangs.github.io/2018/04/06/the-different-of-likelihood-and-probability/

然后对数似然函数为

l ( θ ) = log L ( θ ) = i = 1 N y i log ( h θ ( x i ) ) + ( 1 y i ) log ( 1 h θ ( x i ) )

我们的目标是极大化对数似然函数。
我们定义 J ( θ ) = 1 m l ( θ ) 得到 L o g i s t i c 的损失函数
J ( θ ) = 1 m i = 1 N y i log ( h θ ( x i ) ) + ( 1 y i ) log ( 1 h θ ( x i ) )

因此,接下来可以使用梯度下降等最优化方法求得极值参数。

多项逻辑斯谛回归
与二项逻辑斯谛回归相似,其模型定义为,假设离散型随机变量 Y 的取值集合为 { 1 , 2 , . . . , K }

P ( Y = k | x ) = e θ k T x 1 + k = 1 K 1 e θ k T x , k = 1 , 2 , . . . , K 1

P ( Y = K | x ) = 1 1 + k = 1 K 1 e θ k T x

参数估计策略与二项逻辑斯谛回归类似。

猜你喜欢

转载自blog.csdn.net/MachineRandy/article/details/80352272