机器学习之线性回归模型

1.线性回归模型

1.1 模型结构

线性回归模型是通过建立线性特征组合进行预测的回归模型。我们需要虚招一条直线来最大程度的“拟合”样本特征。
假设线性模型为： $y = a x + b$ 其中y是连续变量。
那么我们可以知道，对于任意的特征 $x_i$ 都有预测值 $\hat{y}=ax_i+b$
其真实值为 $y$ 。
如下图，真实值 $\hat{y}=[2,3,5,9,10,11]$
在这里插入图片描述
1.2 损失函数
对于构建的线性回归模型，我们希望 $\mid{y_i-\hat{y_i}}\mid$ 尽量小，为了方便计算（后续公式的求导），我们引入欧拉距离 $(y_i-\hat{y_i})^2$ ，然后考虑所有的样本可得 $\sum_{i=1}^m(y_i-\hat{y_i})^2$
这就是我们的损失函数。在线性回归模型中，我们利用这个损失函数的最小值做为评判标准来找出一条直线。
1.3最小二乘法
对于多元线性回归模型，样本 $x^i=(1,x_1^i,x_2^i,...,x_m^i)$ ,有 $y(\theta)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_m^i$
又有多元 $Y=\begin{bmatrix}y^1\\y^2\\.\\.\\.\\y^n\end{bmatrix}_{n*1}$
那么有 $X=\begin{bmatrix}x^1\\x^2\\.\\.\\.\\x^n\end{bmatrix}_{n*(m+1)},\theta=\begin{bmatrix}\theta^1\\\theta^2\\.\\.\\.\\\theta^m\end{bmatrix}_{(m+1)*1}$
故 $Y(\theta)=X*\theta$
经过以上推导，我们可以引出利用最小二乘法求解损失函数 $Y(\theta)=X*\theta$
目标是找到一组 $\theta_0，\theta_1，...，\theta_m$ ,使损失函数 $\sum_{i=1}^m(y_i-\hat{y_i})^2$ 最小。
推导一个公式，我们假设 $U=(u^1,u^2,...,u^n)$ ,则有 $\sum_i=1^n(u^i)^2=U^TU$ 。
那么 $\sum_{i=1}^n(y^i-x^i\theta)^2=(Y-X\theta)^T(Y-X\theta)$
令 $j=(Y-X\theta)^T(Y-X\theta)$ 。

解法一：正规方程求解模型参数
$J=(Y-X\theta)^T(Y-X\theta)\\=(Y^T-X^T\theta^T)(Y-X\theta)\\=Y^TY-Y^TX\theta-\theta^TX^TY+\theta^TX^TX\theta$
求导可得 $\frac{\delta J}{\delta \theta} =\frac{\delta(\theta^TX^TX\theta)}{\delta\theta}-\frac{\delta(Y^TX\theta)}{\delta\theta}-\frac{\delta(\theta^TX^TY)}{\delta\theta}$
此时我们再推导一组公式， $\frac{\delta(X^TAX)}{\delta X}=2AX,\frac{\delta(AB){\delta B}}=A^T,\frac{\delta A^TB}{\delta A}=B$ 。
那么 $\frac{\delta J}{\delta\theta}=2X^TX\theta-(Y^TX)^T-X^TY\\=2X^TX\theta-2X^TY=0$ 则 $\theta=(X^TX)^{(-1)}X^TY$

解法二：梯度下降法
梯度下降法是一种基于搜索的最优化方法，可以最小化损失函数。
$J=\sum_{i=1}^m(y^i-\theta_0-\theta_1X_1^i-\theta_2X_2^i-...-\theta_nX_n^i)^2$

那么 $\nabla J(\theta)=(\frac{\nabla J}{(\theta)_0)},\frac{\nabla J}{(\theta)_1},\frac{\nabla J}{(\theta)_2)},...,\frac{\nabla J}{(\theta)_n)})=\begin{pmatrix}\sum_{i=1}^m2(y^i-X_b^i\theta)(-1)\\\sum_{i=1}^m2(y^i-X_b^i\theta)(-X_1^i)\\\sum_{i=1}^m2(y^i-X_b^i\theta)(-X_1^i)\\...\\\sum_{i=1}^m2(y^i-X_b^i\theta)(-X_n^i)\end{pmatrix}$
目标是使 $\frac{1}{m}\sum_{i=1}^m(y^i-\hat y^i)$ 尽可能小。

$\nabla J(\theta)=\frac{2}{m}\begin{pmatrix}\sum_{i=1}^m(X_b^i\theta-y^i)\\\sum_{i=1}^m(X_b^i\theta-y^i)X_1^i\\\sum_{i=1}^m(X_b^i\theta-y^i)X_1^i\\...\\\sum_{i=1}^m(X_b^i\theta-y^i)X_n^i\\\end{pmatrix}=\frac{2}{m}(X_b^1\theta-y^1,X_b^2\theta-y^2),...,X_b^m\theta-y^m)\begin{pmatrix}X_0^1...X_n^1\\.........\\X_1^m...X_n^m\end{pmatrix}=\frac{2}{m}X_b^T(X_B\theta-y)$

2020-09-21机器学习之线性回归模型笔记（一）

机器学习之线性回归模型

1.线性回归模型

猜你喜欢