(180903)如何将问题构建成机器学习问题----Google 机器学习速成课程笔记

如何创建模型

如何结合输入的数据(信息)进行合理的预测

课程中是以垃圾邮件分类为案例展开的

在训练垃圾分类模型时，我们会提供大量的有标签样本进行创建、学习、预测模型，然后通过无标签样本来预测该样本的标签所属。

整个流程大概是这样，然后，什么是样本？标签？模型？

标签是训练模型时提供的，比如邮件分为垃圾邮件和正常邮件这两类，这就是两个标签；也是我们要通过模型预测的事物（一封邮件是否是垃圾邮件等）

特征是大量用来描述信息的数据，{x1，x2，…xi}。即简单线性回归中的 x 变量

比如说在垃圾邮件检测器示例中，特征可能包括：
- 电子邮件文本中的字词
- 发件人的地址
- 发送电子邮件的时段
- 电子邮件中包含“一种奇怪的把戏”这样的短语

有些标签可能不可靠，存在人为误标，干扰等
特征应该选取可观察可量化的

课程中提供了个买鞋的例子，假设一家在线鞋店希望创建一种监督式机器学习模型，以便为用户提供合乎个人需求的鞋子推荐。也就是说，该模型会向小马推荐某些鞋子，而向小美推荐另外一些鞋子
- 比如鞋码、颜色、样式、用户点击次数的描述就是好的实用特征
- 比如鞋的美观程度、用户喜好这些是模糊的、难以量化的特征

样本就是我们所提供的大量实际的数据 x(矢量x)，有标签样本是包含特征x、标签y的数据，无标签样本是只含有特征x的数据

一个样本包含一个或多个特征，此外还可能包含一个标签

在垃圾邮件分类案例中，用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件数据就是有标签样本；用户还没分类的邮件就是无标签样本

x和y对应之间是有一定的参数的，

参数 (parameter)

机器学习系统自行训练的模型的变量。例如，权重就是一种参数，它们的值是机器学习系统通过连续的训练迭代逐渐学习到的

不难想象，模型生命周期分为两个阶段：

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：
- 加利福尼亚州一栋房产的价值是多少？
- 用户点击此广告的概率是多少？

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：
- 某个指定电子邮件是垃圾邮件还是非垃圾邮件？
- 这是一张狗、猫还是仓鼠图片？