深度学习和计算机视觉相关总结

最近要找工作，个人比较心仪的岗位当然是DL&CV，大概是因为硕士期间对这些研究的比较多。有时接触的东西多了，但是很多看了一次就忘记了，就算是看过多次的也留不下多少记忆。原因当然是没有系统地进行总结过，没有把知识点串联起来。

第一次接触到机器学习（同时也是第一次听说机器学习），还是在大四那年寒假左右，大概是2016年初。当时好像是在别人的百度云盘分享里面看到了一本叫做《机器学习实战》的书。那时候只是觉得那玩意很厉害，为什么自己现在才发现？而且里面推荐使用的语言是Python，正好那时也接触了Python这门语言，也算是入门了。可是当时并没有过多地去研究机器学习。不过当时的本科毕业设计做的是与图像相关的，图像视觉安全质量评估。那时候也是刚刚接触图像。之前没有接触过。那个时候我是用的OpenCV和C++做的毕业设计。而其中用到的核心函数大概就是OpenCV自带的Canny函数了。当时其实可以选择用Matlab实现的，但考虑到总总原因，还是选择了C++，因为自己当时对Matlab不感冒（现在也是，摊手笑哭）。毕竟C佳佳要显得高大上些。这个毕业设计是跟着一个博士师兄做的。实现他发表的一篇论文里面的算法。大概就是提取图像的边缘特征以及纹理特征，然后算出图像的视觉安全得分。好了，闲话大概就到这个地方吧。

后面再次接触机器学习还是研一上学期，那时候实验室开了一门讨论班，讲的就是机器学习，那时用的教材是CMU的Mitchell写的黑皮《机器学习》。自己也参与讲了几节。研一寒假（2017年初），在别人的推荐下，入手了李航博士的那本《统计学习基础》，当时还把书带回了家，希望寒假能够读完，遗憾的是第一页都没有翻开过（今年寒假也带回家了，一样的没有读完）。后来研一下学期，学习了那门课，用的是西瓜书。研二上学期学习了花书《深度学习》（17年暑假刚刚出版），也讲了机器学习那个部分，以及深度学习的卷积神经网络（CNN）。同时研二上学期也开始写小论文，涉及到的就是深度学习和计算机视觉。具体是使用卷积神经网络对图像进行质量评估（没错，整个研究生期间，入的就是这个坑）。所以对于机器学习和深度学习、计算机视觉还是有很多要总结的。

1、机器学习

关于机器学习，其实它和统计学是息息相关的。机器学习的一些方法都可以归纳为：模型+策略+算法。机器学习分为监督学习、非监督学习和半监督学习。而任务可以分为：分类和回归。模型类别可以分为：生成模型和判别模型。这些都是最基本的概念。

分类或是回归，无非是通过计算 $f(x)$ 或是 $p(y|x)$ 进行预测的。其中， $x$ 为样本， $f(x)$ 为具体的分类或回归预测结果，而 $p(y|x)$ 给出的是一个概率，它其实更多地是用来分类的。

从最简单的感知机模型说起（它属于二类分类线性分类模型）。它的模型其实很简单，就是一个线性模型： $f(x,w) = w^{T}x+b$ ，其中 $w$ 为权重，而 $b$ 为偏置。如果仔细观察的话。你会发现，后面的很多模型都是基于此。比如逻辑回归模型，支持向量机（SVM），神经网络（NN）。

机器学习的任务就是进行学习，所以它需要数据。而且数据量越大越好。数据集分为训练集和测试集，当然也有细分出验证集的。对于训练集，假设我们有N个样本。我们把第 $i$ 个样本记作 $x^{(i)}$ ，而对于每一个样本，它都有很多个属性组成。再假设每一个样本有n个属性，记一个样本的第 $i$ 个属性为 $x_{i}$ 。

那么刚刚的线性模型其实就是： $f(x,w) = w_{1}x_{1} + w_{2}x_{2} + ... + w_{n}x_{n} + b$ ，我们可以让 $f(x,w)$ 的取值为 $\{-1,1\}$ ，当右边计算结果为负，取-1；当结果为正，取+1。分别代表正类和负类。其实它可以简化写成： $f(x,w) = sign(w^{T}x+b)$ 。好的，有了模型，下面我们来看策略，所谓策略指的是，我们怎么来评判这个模型的好坏，那么我们自然会想到，看它预测的准确性了。所以就有了损失函数。用它来衡量模型的好坏。

机器学习中常见的损失函数有以下几种，注意的是：在设计损失函数的时候，一定要遵循越是不准确，其损失函数的值越大，我们在后面用算法进行优化的过程其实就是找到最优解（或次优解），使得损失函数最小。
0-1损失函数： $L(y,f(x)) = \left\{\begin{matrix}0, & f(x)=y \\ 1, & f(x)\neq y\end{matrix}\right.$

绝对损失函数： $L(y,f(x)) = |y-f(x)|$

平方损失函数： $L(y,f(x)) = (y-f(x))^2$

负对数（对数似然）损失函数： $L(y,p(y|x)) = -logp(y|x)$ ，这个地方我们稍微考虑一下，为什么要加负号？
因为它给出的是一个概率。概率越大，说明准确率越高，也就是损失值应该越小。见下图：

这里写图片描述

对于感知机而言。我们可以定义误分类点到分离平面的距离作为损失函数值。 $L=\sum_{1}^{N}y_{i}(w^Tx_{i}+b)$ 。
2.决策树
这是一个判别模型，树型模型。
3.logistic模型
这是一个对数线性模型，函数定义为： $f(x|w,b) = \frac{1}{1+e^{-w^Tx+b}}$ 。这是一个sigmoid函数。它具有一个很好的性质 $f'(x) = f(x)(1-f(x))$ ，在后面的深度学习中，它不再被用作激活函数了，原因就是因为它会导致梯度消失。
其中红线和蓝线分别为 $y$ 取0和1的情况。而黑线为对数几率。可以看到它其实是线性的。

这里写图片描述

那么接下来，我们讨论该模型用什么损失函数。谈到这里。不得不提一下大名鼎鼎的交叉熵函数。其实这个我们不用去死记硬背，慢慢推导。从最原始的开始来。首先我们会计算 $w^Tx+b$ 这个线性公式。接着把它带入到sigmoid函数中去。那么有：
$P(y=1|x) = \frac{e^{w^Tx+b}}{1+e^{w^Tx+b}} = h(x|w)$

$P(y=0|x) = \frac{1}{1+e^{w^Tx+b}} = 1-h(x|w)$
现在我们来计算它的损失函数，即真实值 $y$ 与预测值的偏离程度。对于单个样本，当 $y^{(i)}=1$ 时， $h(x^{(i)}|w)$ 越大，说明越准确，所以取个负对数为 $-y^{(i)}\log(h(x^{(i)}|w))$ ；当 $y=0$ 时， $1-h(x|w)$ 越大，说明越准确，所以取个负对数为 $-(1-y^{(i)})\log(1-h(x^{(i)}|w))$ 。再把它们相加，为什么可以相加，因为 $y$ 与 $1-y$ 非0即1，所以不会影响到损失函数。

综合有： $L(y, h(x^{(i)}|w)) = -y^{(i)}\log(h(x^{(i)}|w))-(1-y^{(i)})\log(1-h(x^{(i)}|w))$

而对于所有的N个样本，只需要求和再平均即可： $L =\frac{1}{N} \sum ^N_{i=1}-y^{(i)}\log(h(x^{(i)}|w))-(1-y^{(i)})\log(1-h(x^{(i)}|w))$

现在回过头来，发现很容易把机器学习和深度学习中的一些东西混淆起来，比如
1。reLU函数是干嘛的，它在机器学习里面有涉及到吗？貌似在机器学习里面只有LR中涉及到Sigmoid这个激活函数。
2。关于正则化，它会不会出现在神经网络中的任意一层，还是说只是在最后的输出层。
3。损失函数呢？机器学习中的损失函数和神经网络中损失函数，分别用在什么时候？
4。batch normalization，这个东西的提出是在2015年，那么最新的keras、caffe等框架有对应的实现吗？还有它为什么是放在激活层前面，而不是后面。正常思路，应该是在进入下一层之前，而如果放在激活层前面的话，已经统一化了，不是又被激活函数搞乱了吗？

还是让我们回到原始点。机器学习是一块比较大范围的领域。事实上，深度学习属于机器学习的一部分，对于神经网络，如果层比较深的话，就把它叫做深度学习了。深度学习也叫作特征学习。

有了这一宏观认识后，再来看看机器学习里面到底有什么。首先机器学习的任务是进行学习，然后给出预测。而常见的预测无非就是回归与分类。分类，顾名思义就是给出一个样本，预测它属于哪一类。而回归，就是给出一个样本，预测它的估计值，这是一个连续的值。而分类则是离散的。事实上，在某些情况下，回归也可以转换成分类。例如，如果对一个产品的星级进行预测，使用5个独立的分类器来对1-5星进行打分的效果一般比使用一个回归损失要好很多。好了，这个是题外话。对于机器学习，分为监督学习、半监督学习和无监督学习。目前最常见的还是监督学习。即给出样本的标签值，即它的 $y$ 值。在机器学习中，有很多种模型可以用来学习预测。拿分类来说，常见的有：
1。感知机分类（它和svm在线性可分的情况下极其相似）
2。逻辑回归（别被它的名称误导，它其实是用于分类的。而且属于对数线性二元分类器）
这个时候，有必要扩充一下：在深度学习中经常用到的softmax分类器是它的一般情况。也就是说softmax分类用于多分类，而逻辑回归为二分类。它们都是基于sigmoid函数的，而它们的损失函数，都是基于交叉熵损失函数（负对数似然函数）。
3。SVM（支持向量机）
它既可以做分类，也可以做回归。它基于最大间隔化。其实也可以理解为带正则化的合页损失函数的最小化。
4。决策树
5。朴素贝叶斯分类
6。K-近邻分类
主要就是以上几种。其实它们是相互联系的。都是基于统计理论。模型和策略联系紧密。后面有机会再谈谈它们与统计的关系。

其实我在上面故意避开了神经网络。之所以避开，就是因为把它放在深度学习中来讲。神经网络同样地，也可以做分类和回归。它定义了很多层，每一层由若干个神经元组成。这样就形成了一个网络。而对于一个简单的神经元。它有输入，有输出。权重和输入进行内积，再加上一个偏置，就计算出了一个结果，后面再加上一个激活函数（非线性的，为什么不用线性的？因为用线性的就和一般的线性方法没有区别了。使用非线性为的是多样化。理论上可以模拟出任意的函数）。

重点来了。激活函数只出现在神经网络（深度学习）中，在一般的机器学习（除了神经网络）中，是不会出现这个概念的。而激活函数又会有很多种。常见的有sigmoid函数，tanh函数，softplus函数，ReLu函数，maxout函数等等。稍加联系，我们就会发现：逻辑回归，其实就是一个单层（只有一个隐藏层）的以sigmoid函数作为激活函数的神经网络。

在神经网络中，我们不会使用线性的激活函数，而是使用非线性的，而sigmoid就是过去经常使用到的一个，但是由于它会导致梯度消失以及它的非零对称性质，导致不再使用它。tanh都要比它好一些。更多地是使用Relu函数等其它改进的函数作为激活函数。

那么还有一个问题，激活函数是不是要用在神经网络中的任意一层上。理论上是这样的，但是在深度学习的某些网络中，这不是必须的。也就是说，在某一层中，你可以不使用激活函数。甚至可以不使用偏置。这些在keras的实现中可以发现。

关于前向传播、后向传播与梯度下降，也经常混淆。其实前向传播和后向传播只是神经网络所特有的概念。相信在机器学习中（这里我说的机器学习默认不包含神经网络，因为我现在的目的就是区分它们中容易混淆的地方）并未出现到。再看看梯度下降。是不是很熟悉。其实它是机器学习中的概念。当然深度学习中也会用到。那么区别在哪儿呢？我们说机器学习有了模型和策略之后，剩下的就是如何求出最优的参数，使得模型效果最好（泛化能力强）。梯度下降法就是优化方法中的一种。它在更新参数的时候，始终沿着梯度下降最快的方向走。而前向传播与后向传播，可以理解为神经网络中的数据流走向。前向传播，顾名思义，就是从输入层开始一层一层地往前走，计算数值。最后输出。而后向传播呢？它是为了计算梯度的。从输出开始一层一层地计算导数（梯度），它是反方向传播的。而这些梯度的计算就是为了配合梯度下降法。那么具体是什么呢？这里就不得不提到损失函数。最优化是针对损失函数来优化的。而不是优化模型输出的值。也就是说，梯度是以损失函数的值来计算的。损失函数衡量的就是预测值与真实值的不接近程度。如果预测值与真实值相差很大，说明模型预测的效果不好，于是需要求得损失函数的最小值。于是用到了梯度下降法。

在机器学习中常见的损失函数包括：0-1损失函数（在kNN中用到过），绝对值损失函数（L1损失，mean_absolute_error或MAE，通常用在回归任务中），平方差损失函数（L2损失，mean_squared_error或mse，通常用在回归任务中），负对数似然损失函数（binary_crossentropy，交叉熵损失函数，用在逻辑回归，而categorical_crossentropy：亦称作多类的对数损失，用在softmax回归中），合页损失函数（hinge，主要用在SVM二分类中）: $max(0,-)$ 或 $max(0,-)^2$

L_{i} = C max (0, 1 - y_{i} w^{T} x_{i})

$L_i = C \max(0, 1 - y_i w^Tx_i)$
多分类合页损失函数（categorical_hinge，主要用在SVM多分类中，

Δ

$\Delta$ 为超参数）

L_{i} = \sum_{j \neq y_{i}} max (0, w_{j}^{T} x_{i} - w_{y_{i}}^{T} x_{i} + Δ)

$L_i = \sum_{j\neq y_i} \max(0, w_j^T x_i - w_{y_i}^T x_i + \Delta)$

所以看到了吧。要优化的是这些损失函数计算出来的值。真实的优化目标函数是在各个数据点得到的损失函数值之和的均值。

现在再回到深度学习的神经网络中去。当到了最后的输出层，是什么样子的？在输出层，我们会得出最后的结果，如果是分类，那么最后一层就会有多个节点；而如果是回归，就只有一个节点。后面的事情，就交给损失函数和优化器了。

这个时候，重点来了，为什么神经网络可以使用那么多的损失函数，而这些损失函数都来自于某些机器学习模型的。所以，我们要记住，损失函数是独立于模型的，就像优化算法也是独立于模型的一样。也就是说，那些损失函数不是某个模型特有的。比如，交叉熵损失既可以用于逻辑回归，softmax回归，也可以用于神经网络。而合页损失函数既可以用于SVM，当然也可以用于神经网络。

到了这里，相信大家对模型+策略+算法有了更加深入的理解了。从而就不会再把机器学习和深度学习中的某些东西弄混淆了。其实，只需要多思考一些为什么，我们往往自己也就能得出原因了。当然以上的内容其实并不全面。深度学习中除了一般的深度神经网络，还有CNN、RNN等。但是把最基本的东西弄清楚了，其它的也就可以理解了。

深度学习和计算机视觉相关总结

1、机器学习

猜你喜欢