理论-神经网络引入

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。

引入

我们要进行一个分类任务，如何预测一个输入（样本）的所属类别呢？
在神经网络进行分类任务时，最终输出一个结果（如一个分值），以评估它属于各个类别的可能性。例如：
在这里插入图片描述
以上面例子为例，如果是进行图片识别，需要将图片转换为图像数据，图像是由多个像素点组成，可以将像素点当做数据特征 x，配合特征的权重参数 w以及偏置参数 b，如何得到？需要通过迭代计算逐步更新，与梯度下降中的参数更新类似，首先随机初始化一个值，然后进行不断修正。

预测结果难免与实际情况有误差，如何衡量模型效果的好坏，并且用一个具体数值去分辨好坏程度，需要损失函数。

损失函数

有监督学习中，可用损失函数度来评估预测结果的好坏，评估预测值 f( x, W )与真实值 Y 之间不一致的程度。损失值越小，结果越准确。在训练数据（x ,y）一定的情况下，可以通过调整模型参数 w 和b 来改进。

简单的损失函数定义：
在这里插入图片描述
其中， Li是当前输入数据属于正确类别的得分值与其他所有错误类别得分值的差异总和。

sj 表示预测为其他错误类别的得分
si 表示预测为正确类别的得分
Λ 表示容忍程度（允许误差）
预测错误的分值-预测正确的分值，允许误差为 Λ，在这个误差范围内的，认为是没有损失的（预测结果还可以）。

最终模型的损失函数由大量测试样本确定：

加入正则化项：
我们的目的是求出最佳的W值，现在假设一种场景，输入样本特征为 x=[1,1,1,1]，有两种情况的参数向量 w1=[1,0,0,0,]，w2=[0.25,0.25,0.25,0.25]。
f(x ,w1)=1=f(x ,w2)
可以看到，f 值结果相同，但明显 w1 只关注第一个样本特征，其余特征参数均为0，而 w2 综合考虑到每一个特征，我们希望的模型参数是 w2，因为其泛化能力更强！

那么如何得到 w2？这里可以在损失函数中添加正则化惩罚项
Li+λ*R(wi)（单个wi）

以上方的例子为例，如果我们添加L2正则化惩罚项（权重参数所有元素平方和），计算 w 的平方，w1的平方=1，w2的平方=0.25，即对 w1 的惩罚是1，对 w2 的惩罚是0.25，此时，w1 的损失函数会偏高，表示 w1 这组参数拟合的模型效果较差！

因此，可以在最终的损失函数公式后加上正则化惩罚项：
在这里插入图片描述
其中，λ 为惩罚力度，表示希望对权重参数惩罚的大小。当惩罚力度小时，模型能把所有数据点完全分开，此时过拟合风险最大。当惩罚力度较大时，模型边界会比较平稳，虽然有些数据点没有划分正确，但模型泛化能力强！

利用softmax线性分类器

但在上面的例子中，预测结果是分值，损失函数也是预测具体分数时的损失函数，而对于分类任务来说，更希望得到一个概率值，那么可以借用softmax方法来完成分类任务。

首先，如何将预测的分值转化为概率值？在逻辑回归中是利用了sigmoid函数。
在这里，看上面的例子，小猫图像属于3个类别的得分值分别为（3.2,5.1,-1.7），只看得分值，差异并不大，为了使结果差异更明显，进行映射，映射函数选择指数函数：
在这里插入图片描述
映射后，数值差异明显，且得分为负值时，基本是不可能的类别，映射值接近0。如何转化为概率值？可以进行归一化操作：

可以看到，输入为小猫图像时，概率值是13%，模型预测效果较差。如何衡量？依然是计算损失值，这里借助对数函数计算损失：
在这里插入图片描述
需要注意的是：对数函数的输入是当前输入样本属于正确类别的概率值，表示只关心在正确类别上的分类效果，理想情况是100%。
另外，选择对数函数的原因也在于：
当概率结果越接近1，函数值越接近0，也即损失值越接近0，表示模型的预测正确（100%属于正确类别），不会产生损失。概率接近0，对应的损失值（绝对值）越大。
在这里插入图片描述
经过以上步骤，我们将损失函数重新定义为：

步骤：