回归可以用于预测多少的问题，比如预测房屋被售出价格，或者棒球队可能获得的胜场数，又或者患者住院的天数。事实上，我们也对分类问题感兴趣，不是问“多少”，而是问“哪一个”：

通常，机器学习实践者用分类这个词来描述两个有微妙差别的问题：

这两者的界限往往很模糊。其中的一个原因是：即使我们只关心硬类别，我们仍然需要使用软类别的模型。

一、从回归到多类分类

1. 回归估计一个连续值

线性回归用一套 $\large \left ( \pmb w,b \right )$ 处理一组连续的m个样本 $\large \pmb x$ （的n维特征），用于拟合曲线（面）函数，预估后续函数值；

softmax回归用多套 $\large \left ( \pmb w,b \right )$ 处理每个离散样本 $\large \pmb x$ 的n个特征，以此计算该样本属于每一类的概率，预测样本类别。

我们需要和输出一样多的仿射函数（affine function），每个输出对应于它自己的仿射函数。

对样本的类别进行一位有效编码，将标量 $\large \mathrm{y}$ 拉伸为向量 $\large \mathbf{y}\in \mathbb{R}^{n}$ （n对应类别总数）——本意是用n个二分类来解决n分类问题。

如一个有三种类别的样本：{狗,猫,鸡}，标签y将是一个三维向量，其中(1,0,0)对应于“猫”、(0,1,0)对应于“鸡”、(0,0,1)对应于“狗”。

softmax函数（归一化函数）将未规范化的预测结果 $\large \pmb o$ 变换为非负并且总和为1的概率值，同时要求模型保持可导：

softmax函数并不会改变未规范化的预测 $\large \pmb o$ 之间的顺序，所以可以用下式来选择最有可能的类别（argmax获取最大值下标 $\large i$ ）：

$\large \underset{i}{\mathrm{argmax}}\ \hat{\mathbf{y}} =\underset{i}{ \mathrm{argmax}}\ \mathbf{o}$

将 $\large \mathbf{y}$ 和 $\large \mathbf{\hat{y}}$ 的区别作为损失，为了让损失最小，在训练时我们需要通过优化参数让 $\large \mathbf{\hat{y}}_{i}$ 尽可能大， $\large \mathbf{\hat{y}}$ 而其他维尽可能小（因为 $\large \large \mathbf{y}_{i}$ 为 1 ， $\large \mathbf{y}$ 的其他维为 0 ）。