15天共读深度学习Day5

（今天上完课，我们就算是放假了。放假了，也放松了，差点就忘了打卡这件事了o(╯□╰)o）

今日导读：

1. 神经网络的特征就是可以从数据中学习。即可以由训练数据自动获取最优权重参数的值。

神经网络的优点是对所有问题都可以用同样的流程来解决。也就是说，与待处理的问题无关，神经网络可以将数据直接作为原始数据，进行“端对端”的学习。

2.机器学习中，一般将数据分为训练数据和测试数据两部分来进行学习和实验。

首先，使用训练数据进行学习。寻找最优的参数；训练数据也可以称为监督数据。

然后，使用测试数据评价训练得到的模型的实际能力。

为什么要将数据分为训练数据和测试数据呢？

因为我们追求的是模型的泛化能力。为了正确评价模型的泛化能力，就必须划分为训练数据和测试数据。

3.泛化能力是指处理未被观察过的数据（不包含在训练数据中的数据）的能力。获得泛化能力是机器学习的最终目标。

比如，在识别手写数字的问题中，泛化能力可能会被用在自动读取明信片的邮政编码的系统上。

4.神经网络的学习通过某个指标表示现在的状态，然后以这个指标为基准，寻找最优权重参数。神经网络学习中所用的指标称为损失函数。这个损失函数可以使用任意函数，但一般用均方误差和交叉熵误差等。

损失函数时表示神经网络性能的“恶劣程度”的指标，即当前的神经网络对监督数据在多大程度上不拟合，在多大程度上不一致。

（只对某个数据集过度拟合的状态称为过拟合，避免过拟合也是机器学习的一个重要课题）

（1）可以作为损失函数的函数有很多，其中最有名的是均方误差

均方误差会计算神经网络的输出和正确解监督数据的各个元素之差的平方，再求总和。

均方误差越小，结果就与监督数据更吻合。

（2）交叉熵误差也被经常用作损失函数。

5.机器学习针对训练数据计算损失函数的值，找出使该值尽可能小的参数。因此，计算损失函数时必须将所有的训练数据作为对象。也就是说，如果训练数据有100个的话，我们就要把这100个损失函数的总和作为学习的指标。

MNIST数据集的训练数据有60000个，如果以全部数据为对象求损失函数的和，则计算过程需要花费较长的时间。如果遇到大数据，这样做就是很不现实的。因此，我们从全部数据中选出一部分，作为全部数据的“近似”。

神经网络的学习也是从训练数据中选出一批数据（称为 mini-batch小批量）然后对每个mini-batch计算损失函数，进行学习。

计算电视收视率时，并不会统计所有家庭的电视机，而是仅以那些被选中的家庭为统计对象。

和收视率一样，mini-batch的损失函数也是利用一部分样本数据来近似地计算整体。也就是说，用随机选择的小批量数据作为全体训练数据的近似值。