机器学习算法-线性回归

一、相关理论基础

1.1 凸函数

某个向量空间的凸子集（区间）上的实值函数，如果在其定义域上的任意两点，有 f(tx + (1-t)y) <= tf(x) + (1-t)f(y)，则称其为该区间上的凸函数；

1.2 线性

线性并不等于直线。线性函数的定义是：一阶（或更低阶）多项式，或零多项式。当线性函数只有一个自变量时，y = f(x)；

如果有多个独立自变量,表示为：

$f\left ( x_{1},x_{2},......,x_{k} \right ) = a + b_{1}x_{1} + ......+ b_{k}x_{k}$

总结: 特征是一维的，线性模型在二维空间构成一条直线；特征是二维的，线性模型在三维空间中构成一个平面；若特征是三维的，则最终模型在四维空间中构成一个体；以此类推……

1.3 极大似然估计

定义：从样本中随机抽取n个样本，而模型的参数估计量使得抽取的这n个样本的观测值的概率最大。最大似然估计是一个统计方法，它用来求一个样本集的概率密度函数的参数。

二、线性回归

定义：

回归在数学上来说是给定一个点集，就能够用一条曲线去拟合之。如果这个曲线是一条直线（超平面），那就被称为线性回归。若不是一条直线则称为非线性回归，常见有多项式回归、逻辑回归等。

线性模型优劣：

优点：结果易于理解，计算上不复杂；

缺点：对非线性的数据拟合不好；

2.1 线性回归模型

一般线性模型表示：

$\hat{y} = \theta _{0} + \theta_{1}x_{1} + \theta_{2}x_{2} + ...... + \theta_{n}x_{n}$

其中 $x_{1}$ ， $x_{2}$ 等表示不同的特征， $\theta_{0}$ ， $\theta_{1}$ 等表示权重；用向量的形式表示为： $\hat{y} = h_{_{\theta }}\left ( x \right ) = \theta ^{T}x$ 。

2.2 最小二乘法

最小二乘法是基于均方误差最小化来进行模型求解的方法，最小二乘法试图找到一条直线，使所有的样本到直线上的欧式距离之和最小。

线性模型用一个直线(平面)拟合数据点，找出一个最好的直线(平面)即要求每个真实点距离平面的距离最近。即使得残差平方和（Residual Sum of Squares, RSS）最小：

$RSS\left ( X,h_{\theta } \right ) = \sum_{i=0}^{m}\left ( \theta ^{T}x^{i} - y^{i}\right )^{2}$

另一种情况下，为消除样本量的差异，也会用最小化均方误差（MSE）拟合：

$MSE\left ( X,h_{\theta } \right ) = \frac{1}{m}\sum_{i=0}^{m}\left (\theta ^{T}x^{i} - y^{i}\right )^{2}$

2.3 极大似然法

真实值与预测值存在的差异（用 $\varepsilon$ 表示误差）： $y^{(i)} = \theta ^{T}x^{_{i}} + \varepsilon ^{(i)}$

并且误差 $\varepsilon ^{(i)}$ 是独立并且同分布的，并且服从均值为0 的方差为 $\theta ^{2}$ 的高斯分布：

$p\left (\varepsilon ^{(i)} \right ) = \frac{1}{\sqrt{2\pi }\sigma }exp\left ( -\frac{\left ( \varepsilon^{\left ( i \right )} \right )^{2}}{2\sigma ^{2}} \right )$

$p\left ( \varepsilon ^{(i)} \right ) = p\left ( y^{(i)} \mid x^{i},\varepsilon ^{(i)}\right )$

将误差带入以上公式：

$p\left ( y^{(i)} \mid x^{(i)}; \theta \right ) = \frac{1}{\sqrt{2\pi }\sigma }exp\left ( -\frac{(y^{(i)}-\theta ^{T}x^{(i)})^{2}}{2\sigma ^{2}} \right )$

对已发生的样本，出现的概率为：

$L(\theta ) = \prod_{i=1}^{m}p(y^{(i)}\mid x^{(i)};\theta ) = \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)}-\theta ^{T}x^{(i)})^{2}}{2\sigma ^{2}})$