手推记录-logistic regression (逻辑斯蒂回归)

先看线性回归

h θ ( x ) = θ 0 x 0 + θ 1 x 1 + + θ n x n = θ T x

这里的n表示该样本有n维特征。
目标函数

J ( θ ) = 1 2 i = 1 m ( h θ ( x ( i ) ) y ( i ) ) 2

这里的i表示第i个样本。
为了求目标函数最小,采用梯度下降迭代,为了方便,假设只有一个样本

θ i J ( θ ) = θ i 1 2 ( h θ ( x ) y ) 2 = ( h θ ( x ) y ) θ i ( h θ ( x ) y ) = ( h θ ( x ) y ) θ i ( θ 0 x 0 + θ 1 x 1 + + θ i x i + + θ n x n y ) = ( h θ ( x ) y ) x i

参数 θ i 更新,

θ i := θ i α θ i J ( θ ) = θ i α ( h θ ( x ) y ) x i

在m个样本的情况下,

θ i := θ i α 1 m j = 1 m ( h θ ( x ( j ) ) y ( j ) ) x i ( j )

这样的梯度下降 每次更新都需要所有样本,称为批梯度下降。当样本数量多的时候,训练慢

随机梯度下降法:它的具体思路是在更新每一参数时都使用一个样本来进行更新,

f o r j = 1 t o m : θ i = α ( h θ ( x ( j ) ) y ( j ) ) x i ( j )

但是随机梯度下降法不能得到最优解,只会在最优解附近徘徊
局部加权线性回归,将目标函数添加权值修改为,

J ( θ ) = 1 2 i = 1 m w ( i ) ( h θ ( x ( i ) ) y ( i ) ) 2

其中,

w ( i ) = e x p ( ( x ( i ) x ) 2 2 τ 2 ) τ

( x ( i ) x ) 很小的时候, w ( i ) 接近1,反之接近0。也就是说,距离x越近的样本 x ( i ) 获得的权值越高。

解释一下为什么用误差的平方和作为目标函数,
首先,

y ( i ) = θ T x ( i )

但是由于会有误差,所以还要加上一个误差项,

y ( i ) = θ T x ( i ) + ξ i

根据中心极限定理,由于误差项是好多好多相互独立的因素影响的综合影响,我们有理由假设其服从高斯分布,而且均值是0,方差为某个定值 δ 2
因此,概率密度函数为,

P ( ξ i ) = 1 2 π δ e x p ( ξ i 2 2 δ 2 )

也就是,

P ( y ( i ) | x ( i ) ; θ ) = 1 2 π δ e x p ( ( y ( i ) θ T x ( i ) ) 2 2 δ 2 )

在给定一个 θ ,在 x ( i ) 的情况下,类别为 y ( i ) 的概率。
误差项又是相互独立的,那么 ξ i 似然函数,

L ( θ ) = p ( y | x ; θ ) = i = 1 m P ( y ( i ) | x ( i ) ; θ ) = i = 1 m 1 2 π δ e x p ( ( y ( i ) θ T x ( i ) ) 2 2 δ 2 )

对数似然,

l o g L ( θ ) = l o g i = 1 m 1 2 π δ e x p ( ( y ( i ) θ T x ( i ) ) 2 2 δ 2 ) = m l o g 1 2 π δ + i = 1 m ( y ( i ) θ T x ( i ) ) 2 2 δ 2

为了使 l ( θ ) 极大,也就是让 ( y ( i ) θ T x ( i ) ) 2 2 = J ( θ ) 极小,这也就是损失函数。

逻辑斯蒂回归是一个分类算法,以二分类为例, y { 0 , 1 } ,有了线性回归的基础,那么逻辑斯蒂回归就是要让 h θ ( x ) 的值在0~1闭区间。即,

h θ ( x ) = g ( h θ ( x ) ) = 1 + e 1 θ T x

其中 g 函数称为logistic函数,或者sigmoid函数。
y取1的概率等于 h θ ( x ) ,取0的概率为 1 h θ ( x ) ,即,

p ( y | x ; θ ) = h θ ( x ) y ( 1 h θ ( x ) ) 1 y

似然函数,

L ( θ ) = p ( y | x ; θ ) = i = 1 m P ( y ( i ) | x ( i ) ; θ ) = i = 1 m h θ ( x ( i ) ) y ( i ) ( 1 h θ ( x ( i ) ) ) 1 y ( i )

对数似然,

l ( θ ) = l o g L ( θ ) = i = 1 m y ( i ) l o g h θ ( x ( i ) ) + ( 1 y ( i ) ) l o g ( 1 h θ ( x ( i ) ) )

梯度下降法 ,参数迭代,

θ i := θ i + α 1 m j = 1 m ( y ( j ) h θ ( x ( j ) ) ) x i ( j )

线性回归和逻辑斯蒂回归迭代方式表面上一模一样,但是 h θ 函数并不相同。

猜你喜欢

转载自blog.csdn.net/u014472643/article/details/80662532
今日推荐