吴恩达深度学习学习笔记——C2W2——算法优化-1

 

1.1 Mini-batch 梯度下降法

Mini-batch是指将大的数据集分成更小规模的子集

 

采用mini-batch梯度下降,在每次遍历完一个mini-batch后即可更新参数,而不用等待遍历完全部训练集才更新参数

1.2 理解 mini-batch 梯度下降法

 

Mini-batch梯度下降不如Batch梯度下降那么平滑,但是整体趋势还是下降的

 

选择mini-batch的大小:

当size = m时,即为普通的batch梯度下降

当size = 1时,即为随机(stochastic)梯度下降

通常,选择折中的大小,mini-batch的大小也可作为一个超参数(hyper-parameter)进行确定

 

Mini-batch的大小通常选择为2的整数次幂(否则,训练速度可能会断崖式下降)

1.3 指数加权平均

通过加权平均,可以让数据更加“平滑”

 

指数加权平均(vt = βvt-1 + (1-β)θt),β值越高,数据曲线更平滑,但同时曲线会更加向右偏移

1.4 理解指数加权平均

 

 

指数加权平均中的β有什么含义?β值越高,相当于在计算新值(当前值)时考虑了更多的历史数据

 

指数加权平均的实现示例,其优点时占用内存小(只用一行代码表示旧值)

1.5 指数加权平均的偏差修正

采用指数加权平均后,头部数据值会明显偏低(出现偏差),可对此进行修正

猜你喜欢

转载自blog.csdn.net/hpdlzu80100/article/details/113399321