逻辑回归(推导)

逻辑回归其实就是一个判别模型,什么意思呢?也就是给定一组数据我们将其判别它属于某一类的概率,或者判别好坏,也就是 p ( y x ) p(y|x) 对于这样的模型我们首先想到的是 p ( y x ) = w T x + b p(y|x)=w^Tx+b 但是我们可以清楚地看到公式并不成立: 0 p ( y x ) 1 0\leq p(y|x)\leq1 还有 y p ( y x ) = 1 \sum_yp(y|x)=1 这两个条件并不满足,因此我们将公式转变一下:利用 y = 1 1 + e x y=\dfrac{1}{1+e^x} 也就是 σ ( x ) \sigma(x) 也就是:

p ( y x ; w ) = σ ( w T x + b ) = 1 1 + e ( w T x + b ) p(y|x;w)=\sigma(w^Tx+b)=\dfrac{1}{1+e^{-(w^Tx+b)}}

这个时候我们的目标函数就可以满足概率的形式啦

假设我们现在做一个二分类的问题那么公式可以转化为:

p ( y = 1 x ; w ) = 1 1 + e ( w T x + b ) p(y=1|x;w)=\dfrac{1}{1+e^{-(w^Tx+b)}}

p ( y = 0 x ; w ) = 1 p ( y = 1 x ; w ) = 1 1 1 + e ( w T x + b ) = e ( w T x + b ) 1 + e ( w T x + b ) p(y=0|x;w)=1-p(y=1|x;w)=1-\dfrac{1}{1+e^{-(w^Tx+b)}}=\dfrac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}}

也就是如果标签为1我们就最大化 p ( y = 1 x ; w ) p(y=1|x;w) 然后最小化 p ( y = 0 x ; w ) p(y=0|x;w) 因此我们将两个公式合并为:

p ( y x ; w ) = p ( y = 1 x ; w ) y [ 1 p ( y = 0 x ; w ) ] 1 y p(y|x;w)=p(y=1|x;w)^y\cdot[1-p(y=0|x;w)]^{1-y}

因此给定数据集 D { ( x i , y i ) } , x i R d y i { 0 , 1 } D\{(x_i,y_i)\},x_i\in R^d\quad y_i\in \{0,1\}

因此我们最大化我们的目标函数是:

w m l e , w m l e = a r g m a x w , b i = 1 n p ( y i x i , w , b i ) = a r g m a x w , b log ( i = 1 n p ( y i x i , w , b i ) ) w_{mle},w_{mle}=argmax_{w,b}\prod ^{n}_{i=1}p(y_i|x_i,w,b_i)=argmax_{w,b}\log(\prod ^{n}_{i=1}p(y_i|x_i,w,b_i))

= a r g m a x w , b i = 1 n log p ( y i x i , w , b i ) = a r g m i n w , b i = 1 n log p ( y i x i , w , b i ) =argmax_{w,b}\sum ^{n}_{i=1}\log p(y_i|x_i,w,b_i)=argmin_{w,b}-\sum ^{n}_{i=1}\log p(y_i|x_i,w,b_i)

= a r g m i n w , b i = 1 n log ( p ( y i = 1 x i ; w i ) i y [ 1 p ( y i = 0 x i ; w i ) ] 1 y i ) =argmin_{w,b}-\sum ^{n}_{i=1}\log( p(y_i=1|x_i;w_i)^y_i\cdot[1-p(y_i=0|x_i;w_i)]^{1-y_i})

= a r g m i n w , b i = 1 n log p ( y i = 1 x i ; w i ) i y + log [ 1 p ( y i = 0 x i ; w i ) ] 1 y i =argmin_{w,b}-\sum ^{n}_{i=1}\log p(y_i=1|x_i;w_i)^y_i+\log [1-p(y_i=0|x_i;w_i)]^{1-y_i}

= a r g m i n w , b i = 1 n y i log σ ( w T x i + b ) + ( 1 y i ) log ( 1 σ ( w T x i + b ) ) =argmin_{w,b}-\sum ^{n}_{i=1}y_i\log \sigma(w^Tx_i+b)+(1-y_i)\log(1-\sigma(w^Tx_i+b))

因此逻辑回归的目标函数是:

L = a r g m i n w , b i = 1 n y i log σ ( w T x i + b ) + ( 1 y i ) log ( 1 σ ( w T x i + b ) ) L=argmin_{w,b}-\sum ^{n}_{i=1}y_i\log \sigma(w^Tx_i+b)+(1-y_i)\log(1-\sigma(w^Tx_i+b))

下面我们使用梯度下降法进行对参数的不断优化:

L w = a r g m i n w , b i = 1 n y i σ ( w T x i + b ) [ 1 σ ( w T x i + b ) ] σ ( w T x i + b ) x i + ( 1 y i ) σ ( w T x i + b ) [ 1 σ ( w T x i + b ) ] σ ( w T x i + b ) x i \dfrac{\partial L}{\partial w}=argmin_{w,b}-\sum ^{n}_{i=1}y_i\dfrac{\sigma(w^Tx_i+b)\cdot[1-\sigma(w^Tx_i+b)]}{\sigma(w^Tx_i+b)}\cdot x_i+(1-y_i)\dfrac{-\sigma(w^Tx_i+b)\cdot[1-\sigma(w^Tx_i+b)]}{\sigma(w^Tx_i+b)}\cdot x_i

= a r g m i n w , b i = 1 n y i [ 1 σ ( w T x i + b ) ] x i + ( y i 1 ) σ ( w T x i + b ) x i =argmin_{w,b}-\sum ^{n}_{i=1}y_i\cdot[1-\sigma(w^Tx_i+b)]\cdot x_i+(y_i-1)\sigma(w^Tx_i+b)\cdot x_i

= a r g m i n w , b i = 1 n y i x i σ ( w T x i + b ) x i = a r g m i n w , b i = 1 n ( σ ( w T x i + b ) y i ) x i =argmin_{w,b}-\sum ^{n}_{i=1}y_i\cdot x_i-\sigma(w^Tx_i+b)\cdot x_i=argmin_{w,b}\sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)\cdot x_i

最后计算得: L w = a r g m i n w , b i = 1 n ( σ ( w T x i + b ) y i ) x i \dfrac{\partial L}{\partial w}=argmin_{w,b}\sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)\cdot x_i

同理对b进行求导得:

L b = a r g m i n w , b i = 1 n ( σ ( w T x i + b ) y i ) \dfrac{\partial L}{\partial b}=argmin_{w,b}\sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)

因此采用梯度下降法:
初始化: w 1 , b 1 w^1,b^1
循环 t=1,2,3…n:
w t + 1 = w t η i = 1 n ( σ ( w T x i + b ) y i ) x i \quad \quad w^{t+1}=w^t-\eta \sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)\cdot x_i

b t + 1 = b t η i = 1 n ( σ ( w T x i + b ) y i ) \quad \quad b^{t+1}=b^t-\eta \sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)

但是采用这样的梯度下降法每次都计算所有 w w b b 的梯度,计算量比较大因此我们采用随机梯度下降法:
循环 t=1,2,3…n:
w t + 1 = w t η ( σ ( w T x i + b ) y i ) x i \quad \quad w^{t+1}=w^t-\eta(\sigma(w^Tx_i+b)-y_i)\cdot x_i

b t + 1 = b t η ( σ ( w T x i + b ) y i ) \quad \quad b^{t+1}=b^t-\eta (\sigma(w^Tx_i+b)-y_i)

这样一个逻辑回归就证明完毕啦

发布了18 篇原创文章 · 获赞 8 · 访问量 987

猜你喜欢

转载自blog.csdn.net/li15006474642/article/details/104648441
今日推荐