AI(003) - 笔记 - 第二周 - Logistic回归基本原理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/darkrabbit/article/details/80294951

笔记:Logistic回归基本原理

app显示公式乱码,请使用浏览器或电脑查看。


1、Bernoulli(亮点分布,0-1分布)

成功变量X取值1,否则取值0。成功概率为 θ ,我们称X服从参数为 θ 的Bernoulli分布,记作 X B e r ( θ )

  • 概率函数(pmf)为:

p ( x ) = θ x ( 1 θ ) 1 x = { θ , if  x = 1 1 θ , if  x = 0

  • 均值: μ = θ
  • 方差: σ 2 = θ × ( 1 θ )

2、Logistic回归模型

Logistic回归模型是一个线性模型

  • 条件概率:

p ( y | x ) = B e r ( y | μ ( x ) ) μ ( x ) = σ ( w T x )

  • sigmoid函数(S形函数):

σ ( a ) = 1 1 + e x p ( a ) = e x p ( a ) e x p ( a ) + 1

  • 亦被称为logistic函数或logit函数,将实数a变换到[0, 1]区间

3、神经科学中的Logistic回归

  • 神经元对其输入进行加权和: f ( x ) = w T x

  • 在Logistic回归,定义Log Odds Ratio:

L O R ( x ) = log p ( y = 1 | x , w ) p ( y = 0 | x , w ) = log [ 1 1 + e x p ( w T x ) × 1 + e x p ( w T x ) e x p ( w T x ) ] = log [ e x p ( w T x ) ] = w T x

  • i f f L O R ( x ) = w T x > 0 ,神经元发放脉冲,即

p ( y = 1 | x , w ) > p ( y = 0 | x , w )

4、线性决策函数

在Logistic回归中

L O R ( x ) = w T x > 0 , y ^ = 1 L O R ( x ) = w T x < 0 , y ^ = 0 L O R ( x ) = w T x = 0 : 决策面

因为Logistic回归是一个线性分类器

5、极大似然估计(损失函数)

μ i = μ ( x i ) ,则负 log 似然为:

J ( w ) = N L L ( w ) = i = 1 N log [ ( μ i ) y i × ( 1 μ i ) 1 y i ] = i = 1 N [ y i log ( μ i ) + ( 1 y i ) log ( 1 μ i ) ]

极大似然估计 等价于 最小Logistic损失

6、正则

  • 目标函数

    J ( w ) = i = 1 N [ y i log ( μ i ) + ( 1 y i ) log ( 1 μ i ) ]

  • L2

    J ( w ) = i = 1 N [ y i log ( μ i ) + ( 1 y i ) log ( 1 μ i ) ] + λ | | w | | 2 2

  • L1

    J ( w ) = i = 1 N [ y i log ( μ i ) + ( 1 y i ) log ( 1 μ i ) ] + λ | w |

7、优化方法

  • 目标函数

    J ( w ) = i = 1 N [ y i log ( μ i ) + ( 1 y i ) log ( 1 μ i ) ]

  • 梯度

    g ( w ) = J ( w ) w = w [ i = 1 N [ y i log ( μ i ) + ( 1 y i ) log ( 1 μ i ) ] ] = i = 1 N [ y i × 1 μ ( x i ) + ( 1 y i ) × 1 1 μ ( x i ) ] w μ ( x i ) = i = 1 N [ y i × 1 μ ( x i ) + ( 1 y i ) × 1 1 μ ( x i ) ] μ ( x i ) ( 1 μ ( x i ) ) x i = i = 1 N [ y i × [ 1 μ ( x i ) ] + ( 1 y i ) μ ( x i ) ] x i = i = 1 N [ y i + μ ( x i ) ] x i = i = 1 N [ μ ( x i ) y i ] x i

  • 二阶Hessian矩阵

    H ( w ) = w [ g ( w ) T ] = i = 1 N ( w μ i ) x i T = i = 1 N μ i ( 1 μ i ) x i x i T = X T d i a g ( μ i ( 1 μ i ) ) X T = X T S X 正定矩阵,凸优化

  • 牛顿法迭代机制

    w t + 1 = w y H 1 ( w t ) g ( w t )

    也称二阶梯度下降法,移动方向为:

    d = ( H ( w t ) ) 1 g ( w T )

  • 拟牛顿法

    基本思想是:不用二阶偏导数而构造出可以近似Hessian矩阵(或Hessian矩阵的逆矩阵)的正定对称矩阵,进而再逐步优化目标函数。

猜你喜欢

转载自blog.csdn.net/darkrabbit/article/details/80294951
今日推荐