这篇博客是看微软亚洲研究院的王井东讲解CNN做的笔记，图片居多。30分钟的视频，我看+写用了2个小时，可以说干货满满。适合已经对机器学习，CNN有一定了解的人，但对于CNN实践环节还不太清楚或者是想对最新的研究情况做进一步跟踪。

视频资源见链接：https://v.qq.com/x/page/s05667eq28w.html

视频主要从四个部分讲述CNN：卷积神经网络的基本架构、神经网络的组成、如何学习神经网络以及神经网络的最新的进展

1.卷积神经网络的基本架构

从一个例子进行说明：首先图像会经过第一个卷积层，然后得到四个通道，接着经过非线性的激活函数，得到新的四个卷积层，再通过pooling层，将通道map的大小降到一半，此时经过一个卷积层，可将4个通道变为8个通道，再经过非线性激活函数，得到新的8个通道，再经历一个全局的pooling过程，把8个map变成8维的向量，最后经过一个全连接层，最终可以得到分数。如果在分类中就可以给出各类的分数。

如下图所示：

2.神经网络的组成

1.卷积层

卷积层依赖卷积操作，在二维空间中，进行翻转平移操作。下面是连续卷积和离散卷积的两种形式的表达式。此外计算机视觉中，卷积一般用互相关DNN来代替，卷积的翻转在NN网络中并没有很多的用途。右图是一个图像与一个3*3 的kernel卷积的结果。在这里给出四个通道的例子，每个位置取出一个tensor，于是得到的tensor大小是3*3*4，然后经过一个同样大小的filter，会得到一个新的response，每个位置都做一下，就能得到一个新的map，于是4个filter就能得到4个通道map。

接下来就是具体计算，输入的矩阵（在计算中图像的存储方式是3维矩阵，这里用单维的矩阵表示）与kernel做卷积操作时，计算的结果是对应位置的相乘后相加，这里的例子是a*w+b*x+e*y+f*z，a和w是对应位置，然后kernel一次对应位置相乘的结果相加。这里可以注意到输入是一个4*3的矩阵，kernel是一个2*2 的矩阵时，得到循环卷积的结果是3*2的矩阵。

如下图所示：

卷积里面含有两个问题，首先是zero padding的问题，给出一个一维的例子，假如这里有9个像素值，首先是没有padding的情况下，在kernel卷积是3的情况下，9个像素点在两次卷积之后得到的5个像素点，这里我们在做卷积操作时，每次引入左右两个padding，此时两次卷积的结果就变成了和原来输入一个的9个像素点。这也说明了zero padding的作用是使得完成卷积操作之后的结果与输入大小不变。需要注意的是，再完成padding操作时需要注意根据kernel的大小调整padding的数量。比如下面的例子改成5个像素的kernel时，需要左右各增加两个padding。

另一个问题是striding,上面的例子中右边就是stride=1 的情况，stride=2 的情况下，会对原输入跳过一个像素做卷积操作，再完成一次stride=2的卷积操作之后，得到5个像素点，再一次得到3个像素点。stride操作是使得sequence/map从大变小，在实际中应用也很广泛。

2.激活层

激活层依赖激活函数，这里先介绍sigmoid 函数，这里画出sigmoid函数的曲线，需要注意到的是在图像的两边各有一个红色的区域，在这个区域里，函数曲线是饱和的，导数近似为0，在深度网络中会遇到困难。于是在深度网络中更多的是ReLU 函数，它的表达式为ReLU(x)=max(0,x)，它比sigmoid函数更容易优化，目前比较通用。当然也有tanh，Leaky ReLU，和ELU激活函数，这里不做详细说明。

３.pooling层

这里给出两个pooling层常用的例子：Max pooling和average pooling，也即分别对pooling区域内的值分别做取最大值和做平均操作，也用一个stride=2，filter size=2的例子说明，拿左上角的矩阵说明，max pooling 可以得到最大值6，average pooling可以得到平均值3.

4.全连接层

全连接的意思是输入的每个神经元都和每个输出神经元相连，输入和输出层的神经元的数量可以不相等。

我们通常说的深度卷积网络，其实就是许多卷积层和激活层的叠加，以开头的例子为例，将其中的卷积层和激活层分别进行了N次和M次的重复，就能得到一个深度卷积网络。

接下来我们看两个最近的典型案例，一个是AlexNet 是2012年Hilton和他的学生设计的，另一个VGGNet，是在2014年由牛津大学的一个实验室完成的。

3.如何学习神经网络

1.loss function

在学习参数前，首先需要定义loss function，这里我们介绍一些常用的loss function，首先是分类的loss function中常用的softmax loss，由下图可以看到它的表达式和计算实例，本质上是对预测的结果，做指数操作时，再归一化，最后取对数，可以通过设置Ground-truth的值来确定对数的底。接着是Regression loss function中的Euclidean loss（欧式损失），本质上是对预测值和真实值值差的平方相加。具体如下图：