基于keras的CNN图片分类模型的搭建以及参数调试

基于keras的CNN图片分类模型的搭建与调参

更新一下这篇博客，因为最近在CNN调参方面取得了一些进展，顺便做一下总结。

我的项目目标是搭建一个可以分五类的卷积神经网络，然后我找了一些资料看了一些博客，发现keras搭建CNN，还是比较简单快捷的，模块化，易扩展，极简，让我最终选择了keras。本质上keras相对于python，就相当于python相对于c/c++。就是一个封装的一个关系。

然后讲讲我的模型吧。我的模型是由两层卷积层，两层池化层，两层全连接层组成。这个结构应该算是最简单的卷积神经网络了。可调的参数也并不多。整个分类系统代码组成也很简单，主要就三部分，一个是数据读取处理部分，一个是模型训练部分，一个是模型测试部分。我分类的数据集是通过热成像仪拍摄得到的热成像图，然后经过简单处理之后得到的灰度图。原本这个模型是一个人脸识别系统，把其中摄像头拍摄部分去掉了。只保留图像分类部分的代码，就做成了我的系统了。基本思想还是很简单的。

但是在接触了代码之后，还是发现了很多坑。经过掉坑，爬坑的洗礼之后，写下这篇博客，记载下一些有价值的知识。

1. 数据读取

这里写图片描述

这部分代码开始我就没读懂，reshape函数不是将图片的大小改变的嘛？咋改成了四维的？
查了好多博客，都没说出个所以然。后来我想起手上还有三本TensorFlow的电子书，通过书终于发现了问题所在。
这里写图片描述
这段代码（来自《TensorFlow技术解析与实战》）表示keras分别以theano和TensorFlow为backend实现图像大小重置与存取的区别。同时我还明白了这个代码里面各个参数代表的意思。就比如TensorFlow的吧。

x_test=x_test.reshape(x_test.shape[0],img_rows,img_cols,1)

这个x_test.shape[0]表示总共有多少个照片，因为当时读进照片数据的时候，照片都被放在了list里面了，然后他的大小就是整个list就是照片的数目。然后img_rows,img_cols就是每张照片的大小。
.

2. 调参数

由于优化器和批归一化，对最终的结果产生了很大的影响，我将在下面的内容详细地解释一下这两者的优化原理。

要将一个模型的性能达到一个比较高的水准，必定需要调节相关的参数。作为一名小白。一开始我是一脸闷逼的。不知道该调哪些参数，不知道应该调到多大的数值才算合适。虽然现在的分类准确率还是没达到一个令人满意的程度，但是相较于开始已经提升了很多。先记下来一些吧。
我主要调整了两个部分。

（一）输入图像的大小。这个是我在数据读取部分改的。我将读入的图片长宽调整的更加接近。
（二）增加了dropout函数，dropout函数说白了就是在训练时将部分神经元暂停工作，提升模型的抗过拟合能力。我在每一层都加入了dropout函数，开始的两层都是比较小的概率（0.15），后面到了全连接层比较大（0.5）
（三）将模型的优化器由原来的Adagrad，改为adadelta。这一篇文章里面给出了比较详细的优化方法的总结：深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）这个地方，还有一个值得挖掘的地方就是模型的优化器，optimizor对最终结果影响原来这么大。我在代码中用到的优化器依次是Adagrad，adadelta，Adam，效果依次上升。

Adagrad：

$Adagrad其实就是对学习率进行了一个约束，$
$n_t=n_{t-1}+g^{2}_t$
$\Delta\theta_{t}=-\frac{\eta}{\sqrt{n_t+\epsilon}}*g_t$
$对$ $g_t从1到t进行一个递推形成一个约束项regularizer,$ $\Delta\theta_{t}=-\frac{1}{\sum_{r=1}^{t}{(g_r)^2+\epsilon}},\epsilon,用来保证分母非0$
特点：
前期 $g_t较小的时候，regularizer较大，能够放大梯度$
前期 $g_t较大的时候，regularizer较小，能约束梯度$
适合处理稀疏梯度

扫描二维码关注公众号，回复： 1074250 查看本文章

Adadelta:

$Adadelta是对Adagrad的扩展，最初的方案依然是对学习率进行自适应的约束，但是进行了计算上的简化。Adagrad会累加之前所有梯度的平方，而Adadelta只累加固定大小的项，并且不直接存储这些项，仅仅是近似计算对应的平均值。即：$
$n_t=v*n_{t-1}+(1-v)*g^{2}_{t}$
$\Delta\theta_t=-\frac{\eta}{\sqrt{n_t+\epsilon}}*g_t$
此处 $Adadelta其实还是依赖于全局学习率的，但是经过近似牛顿迭代法之后：$
$E|g^2|_t=\rho*E|g^2|_{t-1}+(1-\rho)*g^2_t$
$\Delta x_t=-\frac{\sqrt{\sum^{t-1}_{r=1}{\Delta x_r}}}{\sqrt{E|g^2|_t+\epsilon}}$
$其中，E代表期望，可以看出Adadelta已经不用依赖于全局学习率了。$
特点：
训练初中期，加速效果不错，很快
训练后期，反复在局部最小值附近抖动

Adam:

$Adam(Adaptive Moment Estimation) 本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点是经过偏置校正之后，每次迭代学习率都有一个确定的范围，使得参数比较平稳，公式如下：$
$m_t=\mu*m_{t-1}+(1-\mu)*g_t$
$n_t=v*n_{t-1}+(1-v)*g^2_t$
$\hat{m}_t=\frac{m_t}{1-\mu^t}$
$\hat{n}_t=\frac{n_t}{1-v^t}$
$\Delta\theta_t=-\frac{\hat{m}_t}{\sqrt{\hat{n}_t}+\epsilon}*\eta$
$其中，m_t,n_t分别是对梯度的一阶矩估计和二阶矩估计，可以看作对期望E|g_t|,E|g^2_t|的估计；\hat{m}_t,\hat{n}_t是对m_t,n_t的校正，这样可以近似为对期望的无偏估计。$
$可以看出，直接对梯度的矩估计，对内存没有额外的要求，并且可以根据梯度进行动态调整，而-\frac{\hat{m}_t}{\sqrt{\hat{n}_t}+\epsilon}对学习率形成了一个动态约束，并且有明确的范围。$
特点：
结合了 $Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的特点$
$对内存要求比较小$
$为不同参数计算不同的自适应学习率$
$适用于大多数非凸优化，适用于大数据集和高维空间$

（四）Batch_normalization(批归一化处理)开始我没注意到有这个优化手段。后来看了些别人博客，于是我想着尝试一下这个BN，我在看的视频里面，也多次提及这个优化手段。但是在使用的时候，我就犯难了，到底应该把代码加在哪儿呢？各种百度不得其解，后来百度了一下终于明白了。CNN with BatchNormalization in Keras 94% 这个代码应用的也是keras实现的CNN，简洁明了，适合小白。

我在这再讲解一下批归一化的原理和作用。
批归一化也叫做批标准化，通俗来说就是对每一层神经网络进行标准化，输入数据进行标准化能让机器学习更加有效地学习。除此之外 $batch normalization$ 还能有效控制坏的参数初始化，比如说 $Relu$ 这种激励函数最怕所有值都落在附属区间。

但是现在遇到的一个问题是训练的准确率还可以能够达到90%+，但是测试准确率只有70%+，因此下一步准备将这个过拟合问题解决。等我将各方面问题解决好，我就会将代码上传到我的GitHub上，供大家学习借鉴。

对了，这一篇知乎专栏是我看到写的比较好的调参博客《如何一步一步提高图像分类准确率？》-曹荣禹，推荐一下

写在最后关于CNN的学习，我开始了大约五六个月，当然这里面是有间断的，关于CNN的认识，现在好多还是停留在纸面上。没法真正完美地解决工程问题。还需要继续努力。以后有新技巧习得，再更！