Deep Learning - 第五章：机器学习基础

因为看过数据挖据导论过来的，所以本章阅读略过了一些章节！

随机梯度下降

通常大多数深度学习算法涉及到某种形式的优化。优化是指改变 $x$ 以最大化或最小化某个函数 $f(x)$ 的任务。当我们对目标函数进行最小化时，我们也称之为代价函数，损失函数或误差函数。

而 $f^{'}(x)$ 给出了原函数 $f(x)$ 的变化规律，可以根 $f^{'}(x)$ 来判断我们需要如何对 $x$ 进行变化，得到不断下降的 $f(x)$ 值，从而达到最小化 $f(x)$ 的目的。这种技术被称为梯度下降(gradient descent)。

我们经常最小化的目标往往是多维的数据，针对这种具有多维输入的函数，我们需要用到偏导数（仅对输入向量的一个方向求导数）的概念，梯度：对一个向量求导的导数， $\nabla _xf(x)$ .
但是一阶偏导数对于我们求全局最小值显得乏力，所以就引入了二阶偏导数，对于这种输入形式为向量的实值函数 $f$ 来说，它的二阶偏导数（都存在的情况下）就是：海森矩阵(Hessian matrix或Hessian)，具体介绍见海森矩阵及其应用。

对于输入和输出都为向量形式时，前面所说的就总结为更一般的情况： $F: {R_n} \to {R_m}$ ，此时描述 $F$ 的梯度的表示就是 Jacobian矩阵；
如果 $p$ 是 $R_n$ 中的一点, $F$ 在 $p$ 点可微分, 那么在这一点的导数由 $J_F(p)$ 给出(这是求该点导数最简便的方法). 在此情况下, 由 $F(p)$ 描述的线性算子即接近点 $p$ 的 $F$ 的最优线性逼近, $x$ 逼近于 $p$ :

$F (x) \approx F (p) + J F (p) \cdot (x - p)$ $F({\bf{x}}) \approx F({\bf{p}}) + {J_F}({\bf{p}}) \cdot ({\bf{x}} – {\bf{p}})$
雅可比矩阵表示如下：
$⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 ⋮ \partial y m \partial x 1 \dots ⋱ \dots \partial y 1 \partial x n ⋮ \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix}$

构建机器学习算法

几乎所有的深度学习算法可以被描述为一个简单的配方：特定数据集，损失函数，优化过程，模型。
组合模型，损失函数和优化算法来构建学习算法的配方同时适用于监督学习和无监督学习。

Deep Learning - 第五章：机器学习基础

随机梯度下降

构建机器学习算法

猜你喜欢