概述

supervised Learning

在这里插入图片描述

这个过程被认为是监督的，一个算法从训练数据中学习，就像是一个老师在监督学生的学习过程一样。
Classification和regreesion就是监督学习任务

回归与分类

在这里插入图片描述

如果要输出的结果是类别，categorical的，就是分类
如果要预测的是numeric，是连续的数据，就叫回归

举一个例子：
在这里插入图片描述

假设我们有一组数据，温度和湿度
我们作出假设：温度和湿度是有一定的关系的（这里之所以要做出假设，是因为回归拟合不能确定因果关系，可能数值上有关系，但是实际并无因果关系）
我们可以得到一个线性模型：

这个模型可以从training data中得到一个最好的w1,w2的参数值。然后我们可以得到一个关于temperature的拟合值，就是用w1,w2和humidity计算出来的。

错误率error rate

在这里插入图片描述

然后我们用计算的拟合值和真实值进行比较，计算出error rate。
上面用到的计算error rate的方法是SSE，错误平方的和。有很多方法这只是一种方法。

整体流程

在这里插入图片描述

N-fold Cross-validation

在这里插入图片描述

把数据随机分成N组，也就是N fold。
其中1组作为testing然后剩下的N-1作为training
然后比较N次的error rate（上面我们已经说过了），取平均值，然后最终得到overall error rate

小结

训练数据，得到模型，然后得到拟合值，然后根据n-fold cross-validation得到一个overall error rate

线性/非线性模型

概述

“All models are wrong, but some are useful” [George Box]
数据挖掘中的模型建立，都是数据驱动的任务 data-driven

线性归回的基本模型：
在这里插入图片描述

这里我们留下了一个，**如何从training data中得到W的值，也就是w1,w2,w3…vector of model parameters.**的问题。
其实先行回归的本质，就是取探讨w的取值，怎么取值才能是的error rate最小

有的时候，线性模型不能解决所有问题：
在这里插入图片描述

线性模型也可以是非线形模型，我们只有把x全部都平方，把 $x^2$ 堪称一个新的变量x2就发现这还是个线性模型

过拟合overfitting

在这里插入图片描述

mean of squared errors(MSE)

这是一个比较常用的error rate
这里也说了，选择W使得S(w)最小
我们叫S(w)为object function，通过object function计算得到error rate

如何计算w

之前我们知道了，回归的本质就是通过计算w来最小化S(w)。如何计算w呢？

在这里插入图片描述

Gradient 梯度下降

在这里插入图片描述

简单的说，就是先对w进行初始化，设置为0或者是一个随机数，然后计算error rate，然后根据：
在这里插入图片描述
不断更新w，直到收敛convergence：

这一次的w和上一次的w的差值小于一个设置的值。
上面公式中的 $\alpha$ 称之为learning rate，学习率

这里分成两种类型的梯度下降：

计算是否收敛是在计算完全部的training data的error rate之后的，所以称之为batch or off-line gradient descent。这种也是multi-pass method 因为每一个训练数据可能被考虑不止一次。
另外一种是single-scan or on-line algorithm。每次计算完一个训练数据，就会判断是否收敛，达到停止回归的条件。也称为stochastic gradient descent