【机器学习·西瓜书学习笔记·线性模型】线性回归——最小二乘法(least square method)

线性模型的基本形式

给定由d个属性描述的实例\mathbf{x}=\left ( x_1;x_2;...;x_d \right ),其中x_i\mathbf{x}在第i个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即

f\left ( \mathbf{x} \right )=\omega _1x_1+\omega _2x_2+...+\omega _dx_d+b

一般用向量形式写成:

f\left ( \textbf{x} \right )=\mathbf{w}^T\mathbf{x}+b


\mathbf{w}b确定后,模型就得以确定

参数查阅表

\hat{\omega }=\left ( \omega ;b \right )

把数据集D表示为一个m*(d+1)大小的矩阵\textbf{X},其中每行对应于一个实例,每行前d个元素对应于实例的d个属性值,最后一个元素恒置于1,即

\textbf{X}=\begin{pmatrix} x_{11}& x_{12}&...&x_{1d}&1\\ x_{21}& x_{22}&...&x_{2d}&1\\\vdots & \vdots &\ddots &\vdots &\vdots \\x_{m1}& x_{m2}&...&x_{md}&1\end{pmatrix}=\begin{pmatrix} \mathbf{x}^T_1&1\\ \mathbf{x}^T_2&1\\\vdots &\vdots \\\mathbf{x}^T_m&1 \end{pmatrix}

(一)均方误差(mean squared error)

基于欧几里得距离(Euclidean distance),我们得到回归任务最常用的性能度量均方误差

E\left ( f\text{;}D\right )=\frac{1}{m}\sum_{i=1}^{m}\left ( f\left ( x_i \right )-y_i \right )^2

更一般的描述

E\left ( f\text{;}D \right )=\int_{\mathbf{x}\sim D}^{}\left ( f\left ( \textbf{x}\right ) -y\right )^2p\left ( \textbf{x} \right )d\mathbf{x}

p.s. D为给定样例集,y_i是实例x_i的真实标记,概率密度函数p\left ( \cdot \right )

(二)最小二乘法做单元线性回归

最小二乘法基于均方误差最小化,在线性模型中可用于单个属性(x_i)多个数据的线性回归。求解\omegab使

E\left ( \omega \text{,}b \right )=\sum_{i=1}^{m}\left ( y_i-\omega x_i-b \right )^2

均方误差最小。

分别对\omegab进行求导,得到

\frac{\partial E\left ( \omega \text{,}b \right )}{\partial \omega }=2\left ( \omega \sum_{i=1}^{m} x^2_i-\sum_{i=1}^{m}\left ( y_i-b \right )x_i\right )

\frac {\partial E\left ( \omega \text{,}b \right )}{\partial b}=2\left ( mb-\sum _{i=1}^m\left ( y_i-\omega x_i \right )\right )

然后联立两式等于0,得到最优解

\omega =\frac{\sum_{i=1}^{m}y_i\left ( x_i-\bar{x} \right )}{\sum_{i=1}^{m}x^2-\frac{1}{m}\left ( \sum_{i=1}^{m}x_i \right )^2}

b=\frac{1}{m}\sum_{i=1}^{m}\left ( y_i-\omega x_i \right )

p.s.\bar{x}x的均值

最优解\omegab带入线性模型,得到

f\left ( x_i \right )=\omega x_i+b

(三)最小二乘法做多元线性回归

更一般化,做多个属性多个数据的线性回归。最小二乘法对\mathbf{w}b进行估计,使得f\left ( \textbf{x}_i \right )=\mathbf{w}^T\mathbf{x}+b,f\left ( \textbf{x}_i \right )\simeq y_i

参考上面过程,对E_{\mathbf{\hat{\omega }}}=\left ( \mathbf{y-X\hat{\omega }} \right )^T\left ( \mathbf{y-X\hat{\omega }} \right )求导得

\frac{\partial E_{\mathbf{\hat{\omega }}}}{\partial \hat{\omega }}=2\textbf{X}^T\left ( \mathbf{X\hat{\omega }-y} \right )

等于0,\mathbf{X}^T \mathbf{X}为满轶矩阵或正定矩阵得最优解

\hat{\omega }^*=\left ( \mathbf{X}^T \mathbf{X} \right )^{-1} \mathbf{X}^T\mathbf{y}

则解出模型。

猜你喜欢

转载自blog.csdn.net/m0_58365661/article/details/123461935