Machine Learning：Multivariate Linear Regression（多元线性回归）

上篇博文中介绍了使用梯度下降法去最小化代价函数 $J(\theta)$ ，从而得到比较符合原始数据分布的假设函数 $h_{\theta}(x)$ 。之前的 $h_{\theta}(x) = \theta_{0} + \theta_{1}x_{1}$ 为单元线性回归(Univariate Linear Regression)，现在介绍多元线性回归。

假设函数(Hypothesis Function)

现在考虑 $h_{\theta}(x)$ 的一般形式，即 $h_{\theta}(x) = \theta_{0} + \theta_{1}x_{1} + \theta_{2}x_{2} + ... + \theta_{n}x_{n}$ 。此时， $\theta$ 为 $n+1$ 维的向量， $\theta = \left[ \begin{matrix}\theta_{0} & \theta_{1} & \cdots & \theta_{n} \end{matrix} \right]$ ，而 $X = \left[ \begin{matrix} x_{0} & x_{1} & \cdots & x_{n} \end{matrix} \right]$ ，此时 $x_{0} \equiv 1$ 。则可以将 $h_{\theta}(x)$ 表示为 $h_{\theta}(x) = \theta^{T}X$ 。

代价函数(Cost Function)

代价函数不变，依旧为

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)= \frac{1}{2m} \sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})^2$

梯度下降求解参数

参数 $\theta$ 更新方法

θ j : = θ 0 - α \partial \partial θ j J (θ) : = θ 0 - α m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\begin{align} \theta_{j} &:= \theta_{0} - \alpha \frac{\partial}{\partial \theta_{j}} J(\theta)\\ &:= \theta_{0} - \frac{\alpha}{m} \sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}\\ \end{align}$
当

j=0 $j = 0$ 时，因为

x j ≡1 $x_{j} \equiv 1$ ，所以上式和之前所推导的更新方法没有区别。注意此时对于

j=0,1,...,n $j = 0, 1, ... , n$ 依旧要同时更新

θ j $\theta_{j}$ 。
在写代码的时候对于多元线性回归注意使用向量化(Vectorization)，避免使用for循环。向量化其实是使用矩阵进行运算。上式可以分解为：

θ δ : = θ - α δ = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) (1) (2)

$\begin{align} \theta &:= \theta - \alpha\delta \tag{1} \\ \delta &= \frac{1}{m} \sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})x^{(i)} \tag{2} \end{align}$
对于

(1) $(1)$ 式，

θ $\theta$ 是一个

n+1 $n+1$ 维的向量，

α $\alpha$ 为标量，对于

(2) $(2)$ 式，

h θ (x (i) )−y (i) $h_{\theta}(x^{(i)})-y^{(i)}$ 为标量，

x (i) $x^{(i)}$ 即为

X $X$ ，为

n+1 $n+1$ 维向量，所以可以使用矩阵运算同时计算

θ $\theta$ 中的

n+1 $n+1$ 个值。会提高运算效率。

标准方程求解参数

如果特征数量较少，可以使用标准方程(Normal Equation)求解参数 $\theta$ 。直接令 $\frac{\partial}{\partial \theta_{j}} J(\theta) = 0$ 求解 $\theta$ 。
如果有 $m$ 个训练样本，则 $X$ 为 $m \times (n+1)$ 维向量， $Y$ 为 $m \times 1$ 维向量。参数计算为

θ = (X T X) - 1 X T Y

$\theta = (X^{T}X)^{-1}X^{T}Y$ 得到

n+1 $n + 1$ 维的参数

θ $\theta$ 。为了保证

X T X $X^{T}X$ 的逆矩阵存在，需要注意以下两点：
1.所选取的特征数量一定要小于获取的原始样本数量，即

m>n $m>n$ 。
2.所选取的特征一定要相互独立。
如何还

X T X $X^{T}X$ 的逆矩阵依旧不存在，可以使用伪逆矩阵代替逆矩阵。
当特征数量很多(>5000)时，由于标准方程的计算量很大，所以依旧选择梯度下降。

特征值归一化

特征值归一化又称为特征放缩(Feature Scaling)，如果不进行归一化，则可能导致梯度下降经过很长时间才收敛到最小值。归一化即将不同的特征都放缩为相同标准，通常为

x j = x j | x j | ( m a x )

$x_{j} = \frac{x_{j}}{|x_{j}|(max)}$ 最后放缩的范围为-1到1。
也可以使用均值归一化(Mean Normalization)：

x j = x j - μ j S j

$x_{j} = \frac{x_{j} - \mu_{j}}{S_{j}}$ 其中，

μ j $\mu_{j}$ 为

x j $x_{j}$ 的平均值，

S j $S_{j}$ 为

x j $x_{j}$ 的标准差，为了简单也可使用

x j (max)−x j (min) $x_{j}(max) - x_{j}(min)$ 。归一化后可以让程序运行更快。
本文主要偏向于数学公式推导，相关视频可以参考 Andrew Ng 机器学习课程，本文相关内容也源于该课程。