机器学习(二)线性模型---线性回归

机器学习(二)线性模型—线性回归

2.1 线性回归
2.1.1 基本形式：
给定样本 $\textbf{x}=(x_1,x_2,...,x_d)$ ，线性模型通过如下方式计算预测值：

\begin{matrix} (1) & f (x) = w_{1} x_{1} + w_{2} x_{2} + . . . + w_{d} x_{d} + b = w \cdot x + b \end{matrix}

$f(\textbf{x})=w_1x_1+w_2x_2+...+w_dx_d+b=\textbf{w}\cdot \textbf{x}+b\tag1$
目标函数：

\begin{aligned} w^{*}, b^{*} & = a r g m i n_{(w,b)} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2} \\ (2) & = a r g m i n_{(w,b)} \sum_{i = 1}^{m} (y_{i} - w \cdot x_{i} - b)^{2} \end{aligned}

$\begin{align} w^*,b^*&=argmin_{(\textbf{w,b})}\sum_{i=1}^{m}(f(x_i)-y_i)^2\notag\\ &=argmin_{(\textbf{w,b})}\sum_{i=1}^{m}(y_i-\textbf{w}\cdot\textbf{x}_i-b)^2\tag2\\ \end{align}$
改写成矩阵乘法形式：

\begin{matrix} (3) & w^{*} = a r g m i n_{w} ((y - Xw)^{T} (y - Xw)) \end{matrix}

$w^*=argmin_w((y-\textbf{Xw})^T(y-\textbf{Xw}))\tag3$
求导:

\begin{aligned} d ((y - Xw)^{T} (y - Xw)) & = d (y - Xw)^{T} (y - Xw) + (y - Xw)^{T} d (y - Xw) \\ = d (Xw)^{T} (y - Xw) - (y - Xw)^{T} d Xw \\ (4) & = t r (- 2 (y - Xw)^{T} X d w) \end{aligned}

$\begin{align} d((y-\textbf{Xw})^T(y-\textbf{Xw}))&=d(y-\textbf{Xw})^T(y-\textbf{Xw})+(y-\textbf{Xw})^Td(y-\textbf{Xw})\notag \\ &=d(\textbf{Xw})^T(y-\textbf{Xw})-(y-\textbf{Xw})^Td\textbf{Xw} \notag \\ &=tr(-2(y-\textbf{Xw})^T\textbf{X}d\textbf{w} )\tag4 \end{align}$
故：

\begin{matrix} (5) & \frac{\partial l o s s}{\partial w} = 2 X^{T} (Xw - y) \end{matrix}

$\frac{\partial loss}{\partial \textbf{w}}=2\textbf{X}^T (\textbf{Xw}-y)\tag5$
令

(5)

$(5)$ 等于0可得解析解：

\begin{matrix} (6) & w^{*} = (X^{T} X)^{- 1} X^{T} y \end{matrix}

$w^*=\mathbf{(X^TX)^{-1}X^Ty }\tag6$
值得注意的是

X^{T} X

$\mathbf{X^TX}$ 往往不是满秩矩阵

2.1.2 概率角度：
假设我们的真实值与误差函数存在高斯误差，error服从为均值为0，精度为 $\beta$ 的高斯分布即：

\begin{matrix} (7) & y = y (x, w) + e r r o r \end{matrix}

$y=y(x,w)+error\tag7$

\begin{matrix} (8) & p (y | x, w, β) = N (y | y (x, w), β^{- 1}) \end{matrix}

$p(y|x,w,\beta)=N(y|y(x,w),\beta^{-1})\tag8$

\begin{matrix} (9) & E (y | x) = \int y p (y | x) d x = y (x, w) \end{matrix}

$E(y|x)=\int yp(y|x)dx=y(x,w)\tag9$
似然函数可以写为：

\begin{matrix} (10) & p (y | X, w, β) = \prod_{n = 1}^{N} N (y_{n} | w x_{n}, β^{- 1}) \end{matrix}

$p(y|X,w,\beta)=\prod_{n=1}^NN(y_n|wx_n,\beta^{-1})\tag{10}$
对数似然为：

\begin{matrix} (11) & l n p (y | X, w, β) = \frac{N}{2} \ln β - \frac{N}{2} l n (2 π) - β E_{D} (w) \end{matrix}

$lnp(y|X,w,\beta)=\frac{N}{2}\ln\beta-\frac{N}{2}ln(2\pi)-\beta E_D(w)\tag{11}$
其中：

\begin{matrix} (12) & E_{D} (w) = \frac{1}{2} \sum_{n = 1}^{N} (y_{n} - w x_{n})^{2} \end{matrix}

$E_D(w)=\frac{1}{2}\sum_{n=1}^N(y_n-wx_n)^2\tag{12}$
从概率角度看，最小二乘法做了一个最大似然估计

2.1.3 正则化：
在原损失函数中加入正则化项 $\Omega(\textbf{w})$ ，可得：

\begin{matrix} (13) & l o s s = \frac{1}{2} (y - Xw)^{T} (y - Xw) + Ω (w) \end{matrix}

$loss=\frac{1}{2}(y-\textbf{Xw})^T(y-\textbf{Xw})+\Omega(\textbf{w})\tag{13}$
当

Ω (w) = \frac{λ}{2} |w|

$\Omega(\textbf{w})=\frac{\lambda}{2}\textbf{|w|}$ ，称为Lasso回归，无法直接求导可采用坐标下降的方式
当

Ω (w) = \frac{λ}{2} w^{T} w

$\Omega(\textbf{w})=\frac{\lambda}{2}\mathbf{w^Tw}$ ，称为Ridge回归，

w^{*} = (λ I + X^{T} X)^{- 1} X^{T} y

$w^*=\mathbf{({\lambda}I+X^TX)^{-1}X^Ty }$

2.1.4 相关问题总结

L1、L2 为什么能够降低过拟合？
从概率角度看，最小二乘法我们不知道参数具体的先验分布，采用最大似然估计。L1、L2采用最大后验估计，L1相当于给模型加入了拉普拉斯先验，L2给模型加入了高斯先验，表明我们对参数有一定的先验知识，使用观测数据来修正我们的先验。
从参数的角度，L1使得有些权重变为0 在做的是特征选择，删除那些不重要的可能导致过拟合的参数；而L2将得到较小的参数，若参数很大，样本稍微变动一点，值就有很大偏差，这当然不是我们想看到的，相当于降低每个特征的权重。
L1为什么能进行特征选择(得到稀疏解)，L2为什么能得到光滑解(值较小)？
L1投影到坐标轴上是菱形，损失函数主体是个凸函数，它的等高线均匀地向外扩散。二者切点往往在坐标轴上取到，最优解在坐标轴上取到，而圆形的L2正则的切点一般是在圆周上，能够压缩参数的大小，并不容易得到稀疏解。
L1不可导怎么进行模型的优化？
可以使用坐标轴下降的方法进行优化：
- 延着坐标轴的方向进行参数的更新，不依赖于梯度
- 每次更新固定m-1个参数，只对一个参数进行优化，求局部极小值点
- 对于可微凸函数，如果参数的一个解在对于函数在某个坐标轴上能达到最小值，那么这个参数就是f的全局最小点
- 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索，固定其他的坐标方向，找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值

机器学习(二)线性模型---线性回归

机器学习(二)线性模型—线性回归

猜你喜欢