【CS231n】Lecture 5:Training Network，Part I

CS231n系列课程笔记：作为本人的笔记记录，并无商用用途
CS231n：http://cs231n.stanford.edu/

关于训练神经网络的误解：

1.ConvNets needs a lot of data to train!实际做法：利用Image data训练网络,利用本地数据微调网络
2.Infinite compute.实际：有限的计算能力

当前进度:Mini-Batch SGD（训练步骤如下）

1.随机取样
2.前向传播（forward prop），得到损失函数(loss function)
3.反向传播（back prop），求偏导计算梯度（gradient）
4.更新参数

激活函数（Activation Function)

sigmoid
优点：可微
缺点：1.当参数达到饱和状态（比如w较大或w较小时，w的剃度很小，更新很慢很慢，“kill” gradient）
2.sigmoid函数的输出是在零到一之间，没有小于零的值（not zero centered），一定程度上限制了神经网络的拟合能力
3.exp()运算占用较多计算能力（相较于线性函数的计算）

tanh
优点：1.可微
2.输出是zero centered数据
缺点：1.当参数达到饱和状态（比如w较大或w较小时，w的剃度很小，更新很慢很慢，“kill” gradient）
2.tanh运算相较于线性运算，占用了较多计算力

ReLU（Rectified Linear Units）
优点：1.w>0时可微，并且导数是常数
2.线性计算占用的计算力小
3.没有饱和状态，只要存在损失，可以一直更新参数（相同的梯度，梯度没有变化）
4.收敛的更快（例如：6x的导数和sigmoid的导数）
缺点：1.w一旦小于零，相应的节点永远不会被激活（kill node）
2.输出数据not zero centered