改善深层神经网络week2学习笔记

1.Mini-Batch Gradient descent

Mini-batch每次处理训练数据的一部分，即用其子集进行梯度下降，算法速度会执行的更快。

方法分为两个步骤：

Shuffle：

洗牌一般同步打乱原来数据集X和对应标签Y中的数据信息，使得数据随机分散到不同的minibatch中

代码中用到了np.random.permutation()方法作为洗牌方法，对于打乱顺序有两种方法。permutation是返回一个新的数组，不对原来数组进行改动，而shuffle不返回值，对原来数组基础上进行打乱顺序操作。

Partition：

将对应X,Y划分到各个minibatch中，每个minibatch里数据数量相等，除了最后一个可能略少于其他minibatch。

Mini-batch 大小的选择

在划分时通常采取2的次方项作为minibatch的大小。
如果训练样本的大小比较小时，如 $m\leqslant 2000$ 时 ------ 选择batch梯度下降法；
如果训练样本的大小比较大时，典型的大小为： $2^{6}、2^{7}、\cdots、2^{10}$ ；
Mini-batch的大小要符合CPU/GPU内存。

当minibatch的size选择为1的时候，称为Stochastic Gradient Descent

几个方法效果比较如下：

图中“+”表示损失函数的最小值点

2.指数加权平均

指数加权平均的关键函数：

$v_{t} = \beta v_{t-1}+(1-\beta)\theta_{t}$

实际温度为蓝色点

当=0.5，指数加权平均如黄线所示

当=0.9，指数加权平均如红线所示

当=0.98，指数加权平均如绿线所示

由图可见，值越大（<1），所的曲线更加平滑。解释如下：

例子，当 $\beta =0.9$ 时：

$v_{100} = 0.9v_{99}+0.1\theta_{100}\\v_{99} = 0.9v_{98}+0.1\theta_{99}\\v_{98} = 0.9v_{97}+0.1\theta_{98}\\ \ldots$

展开，有：

$v_{100}=0.1\theta_{100}+0.9(0.1\theta_{99}+0.9(0.1\theta_{98}+0.9v_{97}))\\=0.1\theta_{100}+0.1\times0.9\theta_{99}+0.1\times(0.9)^{2}\theta_{98}+0.1\times(0.9)^{3}\theta_{97}+\cdots$

上式中所有 $\theta$ 前面的系数相加起来为1或者接近于1，称之为偏差修正。

总体来说存在， $(1-\varepsilon)^{1/\varepsilon}=\dfrac{1}{e}$ ，在我们的例子中， $1-\varepsilon=\beta=0.9$ ，即 $0.9^{10}\approx 0.35\approx\dfrac{1}{e}$ 。相当于大约10天后，系数的峰值（这里是0.1）下降到原来的 $\dfrac{1}{e}$ ，只关注了过去10天的天气。

可以认为关注了前 $\frac{1}{1-\beta }$ 的天数，因此 $\beta$ 越大，曲线越平滑。

如果将前 $\frac{1}{1-\beta }$ 存储起来将占用比较大的存储空间，但是使用指数加权平均就不需要担心这个问题，减少了计算机的资源占用，提升效率。

然而实际运行时曲线的前一小段会偏低，因为初始并没有那么多先前的数据作为储存，导致理想中的绿线运行结果是紫线。

原因：

$v_{0}=0\\v_{1}=0.98v_{0}+0.02\theta_{1}=0.02\theta_{1}\\v_{2}=0.98v_{1}+0.02\theta_{2}=0.98\times0.02\theta_{1}+0.02\theta_{2}=0.0196\theta_{1}+0.02\theta_{2}$

如果第一天的值为如 $40$ ，则 $v1=40*0.02=0.8$ （话说这里吴恩达大佬竟然说成了8。。。），得到的值要远小于实际值，后面几天的情况也会由于初值引起的影响，均低于实际均值。

解决方法：

在等式右边除以 $1-\beta ^{t}$ ，因为 $(1-\beta )*(1+\beta +\beta ^{2}+...+\beta ^{t-1})=1-\beta ^{t}$ ，所以 $1-\beta ^{t}$ 等于等式右边加权平均之和，而随着t的增大 $1-\beta ^{t}$ 逐渐趋于1。这样就解决了前段曲线过低的问题。