手推线性回归与逻辑回归 (两个LR,linear regression;logistic regression)

一开始看统计学习方法上的手推LR,那个最大似然函数那看的晕晕乎乎的。这两天又看了这个大哥讲的空间和概率上定义LR的目标函数,以及求解。清晰很多

1、线性回归 Linear Regression

1.1、目标函数的定义

1.1.1 空间角度

和SVM一样,首先定义目标函数。SVM是从空间考虑,点到超平面的最小距离最大。LR的空间考虑很直观,最小各点到回归线的距离之和。
m i n i = 1 N w T x i y i 2 min \sum_{i=1}^{N}||w^Tx_i-y_i||^2

1.1.2 概率角度

概率角度就是统计学习方法的最大似然了。
什么是最大似然呢?就是让事情A发生的最大概率的模型参数。
我们认为各样本点相互独立,那么总模型的似然函数(概率)为各个样本点的概率乘积。再对其求log

l o g ( i = 1 N P ( y i x i , w ) ) = i = 1 N l o g ( P ( y i x i , w ) ) log\left(\prod_{i=1}^N P(y_i|x_i,w)\right) = \sum_{i=1}^Nlog\left(P(y_i|x_i,w)\right)
这里认为 ( y w , x ) (y|w,x) 服从均值为 w x wx ,方差为 σ 2 \sigma^2 的正太分布,所以有
P ( y i x i , w ) = 1 2 π σ e ( y i w T x i ) 2 2 σ 2 P(y_i|x_i,w) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}
因此目标函数为:
m a x P ( Y X , W ) = m a x i = 1 N l o g ( P ( y i x i , w ) ) = m a x i = 1 N ( l o g ( 1 2 π σ ) + l o g ( e ( y i w T x i ) 2 2 σ 2 ) ) = m a x i = 1 N ( l o g ( 2 π σ ) ( y i w T x i ) 2 2 σ 2 ) max P(Y|X,W) = max \sum_{i=1}^Nlog\left(P(y_i|x_i,w)\right)\\ =max \sum_{i=1}^{N} \left(log(\frac{1}{\sqrt{2\pi}\sigma})+log(e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\right)\\ =max \sum_{i=1}^{N} \left(-log(\sqrt{2\pi}\sigma)-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right)\\
这里 σ \sigma 是常数,所以可以约去,目标函数就变为了:
m a x i = 1 N ( ( y i w T x i ) 2 ) = m i n i = 1 N ( y i w T x i ) 2 max \sum_{i=1}^{N} \left(-{(y_i-w^Tx_i)^2}\right)\\ = min \sum_{i=1}^{N}(y_i-w^Tx_i)^2\\ 和上面基于空间的目标函数是一样的。
\\[28pt]

1.2、线性回归的目标函数求解

这个目标函数没有约束很好求,直接求导
L w = i = 1 N ( y i w T x i ) 2 w = 0 \frac{\partial \mathcal{L}}{\partial w} = \frac{\partial \sum_{i=1}^{N}(y_i-w^Tx_i)^2}{\partial w} =0
这里,把 x x y y 写成列向量:
X = [ x 1 x 2 x N ] Y = [ y 1 y 2 . . . y N ] X = \left[\begin{array}{cccc} | & | & & | \\ x_{1} & x_{2} & \ldots & x_{N} \\ | & | & & | \end{array}\right]\qquad Y=\left[\begin{array}{cccc} y_1\\ y_2\\ ...\\ y_N \end{array}\right]
那么:
i = 1 N ( y i w T x i ) 2 = ( Y w T X ) 2 = Y T Y 2 w T X Y + w T X X T w \sum_{i=1}^{N}(y_i-w^Tx_i)^2 = (Y-w^TX)^2\\[4pt] =Y^TY-2w^TXY+w^TXX^Tw
求导:
L w = ( Y T Y 2 w T X Y + w T X X T w ) w = 2 X Y + 2 X X T w = 0 \frac{\partial \mathcal{L}}{\partial w} = \frac{\partial (Y^TY-2w^TXY+w^TXX^Tw)}{\partial w} \\[4pt] = -2XY + 2XX^Tw =0
所以:
w = ( X X T ) 1 X Y w = (XX^T)^{-1}XY
这样就求出了线性回归方程

2、逻辑斯蒂回归

我们说的逻辑回归,就是二项的逻辑斯蒂回归。
这里认为Y 服从logistic 分布:
P ( 1 x ) = e w T x + b 1 + e w T x + b P(1|x) = \frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}
用极大似然估计,得到目标函数:
m a x    l o g i = 1 N P ( y i x i ) max\,\, log \prod_{i=1}^NP(y_i|x_i)
这里:
P ( y i x i ) = P ( 1 x i ) y i P ( 0 x i ) 1 y i P(y_i|x_i) = P(1|x_i)^{y_i}P(0|x_i)^{1-y_i}
我们先用 π ( x i ) \pi(x_i) 来表示 P ( 1 x i ) P(1|x_i) , 化简目标函数:
m a x    l o g i = 1 N π ( x i ) y i ( 1 π ( x i ) ) 1 y i = m a x i = 1 N y i l o g ( π ( x i ) ) + ( 1 y i ) l o g ( 1 π ( x i ) ) max \,\,log \prod_{i=1}^N\pi(x_i)^{y_i}\left(1-\pi(x_i)\right)^{1-y_i} \\ =max \sum_{i=1}^Ny_ilog(\pi(x_i))+(1-y_i)log(1-\pi(x_i))\\
然后把 π ( x i ) \pi(x_i) 的值带入化简得:
m a x i = 1 N [ y i ( w T x i + b ) l o g ( 1 + e w T x i + b ) ] max \,\sum_{i=1}^N\left[ y_i(w^Tx_i+b)-log(1+e^{w^Tx_i+b})\right]
然后可以用梯度下降等方法,去求解最优的 w w b b

发布了82 篇原创文章 · 获赞 2 · 访问量 4341

猜你喜欢

转载自blog.csdn.net/qq_22498427/article/details/105040103