Deep Learning Specialization课程笔记——最优化算法

Mini-batch gradient descent

假设有5000000样本，我们选取每一个小训练集有1000个样本，则：

算法如下，实际上就是分成5000份然后做循环：

代价函数对比：

当mini-batch的大小等于训练集大小m，就是批量梯度下降。梯度下降时噪声小，步长大，可以达到最小值，下图蓝色线。缺点：在每次迭代中风遍历整个训练集，花费时间长。

当mini-batch的大小为1，就是随机梯度下降，噪声大，容易指向错误的地方，下图紫色线。缺点：失去了利用向量加速运算的机会。

故选取mini-batch值位于1-m之间，下图绿色线。

常见的mini-batch size:64,128,256,512

Exponentially weighted averages

指数加权平均，概念：例如以一年的天气变化举例，做出蓝色散点图，通过指数加权平均的计算得到红色的线，这就是一个滑动平均结果。

当系数beta变大，线会变平滑（因为算了更多的平均），同时会右移（在更大的窗口内计算）

黄色为beta=0.5，绿色为beta=0.98

实际计算中，theta(t)（第t天）参数为(1-beta)，theta(t-1)为(1-beta)*beta，theta(t-2)为(1-beta)*beta^2，呈现出指数衰减的态势。Vt大约取1/（1-beta）天（原因：beta^(1/(1-beta))=1/e 故为使得最后值足够小的天数大约为1/(1-beta)天。）

计算过程：