李沐深度学习第一课

对于深度学习来说,很多时候理解它的数学不如知道怎么实现和有更直观的感受。

神经网络的一般流程:
1. 训练神经网络每次读取一定大小的数据,我们称作batch_size。
2. 定义模型参数。
3. 定义模型结构。
4. 定义损失函数,即目标函数。
5. 优化:随机梯度下降(SGD),当目标函数是最小化时,将模型参数沿着梯度的反方向走特定距离,这个距离一般叫做学习率。
6. 开始训练,先forward,然后backward(最小化loss)。epoch表示对数据扫多少遍,即epoch=5意味着扫数据5遍。

调参从简单模型开始,慢慢对参数有感觉,成为老司机~~

dense层即全连接层。

softmax logistic regression:多类别分类模型。在分类任务里,我们需要得到属于每一个类的概率,这些概率需要为正,而且加起来等于1。如果简单的使用线性回归,我们不能保证这一点,一个通常的做法是通过softmax函数来将任意的输入归一化成合法的概率值。
演示这个模型的常见数据集是手写数字识别MNIST。

在线性回归里,损失函数用的是最小化平方误差。
而在softmax里,我们希望的是正确的类别的概率最大就可以,比如:正确的类概率为0.8,其他类都是0.00..这样也是可以的。针对预测为概率值的损失函数—-交叉熵损失函数。

课程里提到这篇博客关于softmax的数值稳定性问题(待看):http://freemind.pluskid.org/machine-learning/softmax-vs-softmax-loss-numerical-stability/

猜你喜欢

转载自blog.csdn.net/yqmind/article/details/78827692