注意：
　　刚开始学习这个内容时请不要纠结于使用到底用哪一个编程语言的问题，不论你是否擅长于C++、JAVA、Python或者C#等等。如果有条件（有钱）的话用Matlab，没钱的童鞋可以和我一样选择Octave、R语言这类免费开源的专业的数值计算语言。
　　
　　这个系列中提到的算法，假如用JAVA（使用数值计算的包）实现的话需要100行代码，那么用Matlab或者Octave可能只需要1行，没错就是一行！！！这个建议目的是让我们把大部分的精力花在对算法的理解上，而不是花在码代码上。
　　
安装Octave请参考：http://www.gnu.org/software/octave/

Octave文档：https://www.gnu.org/software/octave/doc/interpreter/

　　建议有条件的童鞋去Coursera上学习，不仅免费还精心准备了很多联系帮助理解，以下是链接（看视频需要翻墙）：
　　https://www.coursera.org/learn/machine-learning/

梯度下降在多元线性回归（Multivariate Linear Regression）中的应用

　　梯度下降算法的形势与前一章所说的没有多大的区别，我们所要做的仅是直接拿来不做任何修改的使用。

　　重复如下动作至收敛：{

θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x ⃗ (i)) - y ⃗ (i)) \cdot x (i) 0

$\theta_0 := \theta_0 - \alpha \frac {1} {m} \sum_{i=1}^m (h_\theta(\vec x^{(i)})-\vec y^{(i)})\cdot x_0^{(i)}$

θ 1 : = θ 1 - α 1 m \sum i = 1 m (h θ (x ⃗ (i)) - y ⃗ (i)) \cdot x (i) 1

$\theta_1 := \theta_1 - \alpha \frac {1} {m} \sum_{i=1}^m (h_\theta(\vec x^{(i)})-\vec y^{(i)})\cdot x_1^{(i)}$

θ 2 : = θ 2 - α 1 m \sum i = 1 m (h θ (x ⃗ (i)) - y ⃗ (i)) \cdot x (i) 2

$\theta_2 := \theta_2 - \alpha \frac {1} {m} \sum_{i=1}^m (h_\theta(\vec x^{(i)})-\vec y^{(i)})\cdot x_2^{(i)}$

⋮

$\vdots$

θ n : = θ n - α 1 m \sum i = 1 m (h θ (x ⃗ (i)) - y ⃗ (i)) \cdot x (i) n

$\theta_n := \theta_n - \alpha \frac {1} {m} \sum_{i=1}^m (h_\theta(\vec x^{(i)})-\vec y^{(i)})\cdot x_n^{(i)}$ 　　}

前文提到过另一种更加概括的方式：

θ j : = θ j - α 1 m \sum i = 1 m (h θ (x ⃗ (i)) - y ⃗ (i)) \cdot x (i) j f o r j = 1, 2, \dots, n

$\theta_j := \theta_j - \alpha \frac {1} {m} \sum_{i=1}^m (h_\theta(\vec x^{(i)})-\vec y^{(i)})\cdot x_j^{(i)}\ \ for\ \ j=1,2,\dots,n$

特征缩放

　　当涉及到多个特征变量的时候，各个特征变量的变化范围不尽相同，比如 $x_0 \in (300,2400)$ ， $x_1 \in (-1,1)$ ， $x_2 \in (-20,30)$ ，…… 但是，根据公式： $\theta_i := \theta_i - \alpha \frac {\partial} {\partial \theta_i} J(\vec \theta)$ ，可以看出对于所有特征系数 $(\theta_i)$ 来说，学习速率 $\alpha$ 是一致的。这就导致了各特征系数收敛速度的不一致，特征变量 $x_i$ 取值范围较小，其对应的系数 $\theta_i$ 收敛速度就会较快；反之，若 $x_j$ 的取值范围较大，其对应的系数 $\theta_j$ 的收敛速度就会较慢。

　　可以通过将所有特征变量的取值范围缩放到同样的级数，从而加快整体的收敛速度。实现这个目的有两种技术（方法），分别是特征缩放（Feature Scaling）以及均值归一化（Mean Normalization）。

为了说明更加简练，约定：

　　 $range(x_i)$ ：表示特征变量 $x_i$ 取值范围的区间大小，例如前文的例子中 $range(x_0) = 2400 - 300 = 2100$ 。

　　 $mean(x_i)$ ：表示特征变量 $x_i$ 的均值，其定义为 $mean(x_i)=\frac {1} {m} \sum_{k=1}^m {x_i^{(k)}}$ 。

　　 $min(x_i)$ ：表示特征变量 $x_i$ 中的最小值。

特征缩放

公式：

x (k) i : = x ( k ) i - m i n ( x i ) r a n g e ( x i )

$x_i^{(k)}:=\frac {x_i^{(k)}-min(x_i)} {range(x_i)}$

经特征缩放后，所有的特征变量的取值范围都在区间 $[0,1]$ 之间。

均值归一化

公式：

x (k) i : = x ( k ) i - m e a n ( x i ) r a n g e ( x i )

$x_i^{(k)}:=\frac {x_i^{(k)}-mean(x_i)} {range(x_i)}$

经特征缩放后，所有的特征变量的取值范围都在区间 $[-1,1]$ 之间。

调试： $J(\vec \theta)$ 与 $\alpha$ 的关系

　　以迭代次数（No. of Iteration）为 $X$ 轴，代价函数 $J(\vec \theta)$ 为 $Y$ 轴，画坐标图，通过观察曲线的形状可以知道 $\alpha$ 取值是否合适。

当 $J(\vec \theta)$ 能够收敛的时候，曲线形状应如下图所示：

Cost Function and Alpha 001
　
当 $\alpha$ 取值过大时，如图：

Cost Function and Alpha 002
　
　　总之，当 $\alpha$ 取值过小时，函数 $J(\vec \theta)$ 收敛所需要的迭代次数会非常大。当 $\alpha$ 取值过大时 $J(\vec \theta)$ 可能不会收敛甚至发散！！！

另一种方法：Normal Equation

　　找了半天没找到统一的标准的翻译用“正规方程”也不是很确定，后文中就暂且用“NE”表示。

　　NE法相对于梯度下降算法来说，其优点是不需要确定 $\alpha$ 也不需要迭代，只需要一步就可以求出 $minJ(\vec \theta)$ 对应的向量 $\vec \theta$ 。但是，当特征变量的个数“ $n$ ”很大的时候NE法就很难胜任了，那么很大是多大呢？这就要看计算平台的性能了（等于没说）。

梯度下降算法与NE法的对比如下表：

梯度下降算法	Normal Equation
需要确定 $\alpha$	不需要确定 $\alpha$
需要多次迭代	不迭代
$O(kn^2)$	$O(n^3)$ ，需要计算 $(X^TX)^{(-1)}$
$n$ 很大时，效率依然不错	$n$ 很大时，表现很差

　
计算向量 $\vec \theta$ 的公式：

θ ⃗ = (X T X) - 1 X T y ⃗

$\vec \theta = (X^TX)^{-1}X^T\vec y$

公式推导及注意：

前文已经提过，为了方便计算，我们令 $x_0^{(i)}=1$ ，所以矩阵 $X$ 的大小应为 $m \times (n+1)$ 。
$X \vec \theta = \vec y$ ，参考“相关概念及符号定义”部分。
等式两边同乘 $X^T$ ：

$X T X θ ⃗ = X T y ⃗$ $X^T X \vec \theta = X^T \vec y$
若 $X^T X$ 可逆，则等式两边同乘 $(X^T X)^{-1}$ ：

$θ ⃗ = (X T X) - 1 X T y ⃗$ $\vec \theta = (X^T X)^{-1} X^T \vec y$

重要！！！尤其要注意，只有当 $X^T X$ 可逆的情况下，才可以使用NE！！！

跟着Andrew Ng挑战Machine Learning（第二周）：多元线性回归+特征缩放

相关概念及符号定义

梯度下降在多元线性回归（Multivariate Linear Regression）中的应用

特征缩放

特征缩放

均值归一化

调试： $J(\vec \theta)$ 与 $\alpha$ 的关系

另一种方法：Normal Equation

猜你喜欢

跟着Andrew Ng挑战Machine Learning（第二周）：多元线性回归+特征缩放

相关概念及符号定义

梯度下降在多元线性回归（Multivariate Linear Regression）中的应用

特征缩放

特征缩放

均值归一化

调试： J(θ⃗ ) J(\vec \theta)与 α \alpha的关系

另一种方法：Normal Equation

猜你喜欢

调试： $J(\vec \theta)$ 与 $\alpha$ 的关系