【学习笔记】机器学习基本概念

主要整理总结谷歌给出的官方课程(速学课程和实践课程),大部分以理论为主。

监督式学习:

机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

个人理解为就是有标签的学习。

标签：

标签则是我们要预测的事物，也就是线性回归中的y变量。

比如y = ax+b, 我们通过给出x,y的n组解，让神经网络寻找a和b的局部最优解(或全局最优解)。这样我们就可以对未出现的x值预测其y值。

特征：

特征即以上的x值，这里的x值可能是1个，也可能是数百万个。

在垃圾邮件检测器中可能包括的特征：

1.电子邮件文本中的字词

2.发件人地址

3.发送电子邮件的时间段

4.电子邮件中包含“一种奇怪的把戏”这样的短语

样本：指数据的特定实例x，这里加黑表示是矢量(有大小，有方向)。样本分为以下两类。

1.有标签样本

2.无标签样本

有标签的样本同时包含特征和标签。无标签样本则只包含特征，而不包含标签。

“在使用有标签样本训练了我们的模型之后，我们会使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中，无标签样本是用户尚未添加标签的新电子邮件。”

模型：模型定义了特征和标签之间的关系(我们整个网络的框架)，主要分为两个阶段：

1.学习阶段：这个阶段会向模型展示有标签样本，让模型去学习特征与标签之间的关系。

2.验证阶段：这个阶段会应用无标签样本，也就是我们用训练后的模型去预测y。

回归与分类：

回归模型可预测连续值 ，如加利福尼亚一栋房产的价值是多少，用户点击此广告概率是多少。

分类模型可预测离散值 ，如某封电子邮件是否为垃圾邮件，这张图片到底是猫还是狗。

习题答案：

1.监督是学习：

选项1:

未标记为垃圾邮件或非垃圾邮件的电子邮件为无标签样本。

这个很好理解，我们训练模型就是为了预测标签(是否为垃圾邮件),因此被标记为是否为垃圾邮件的邮件就是有标签样本。

选项2:

有些标签可能不可靠。

“数学法则只要与现实有关的，都是不确定的。”(有些垃圾内容发布者或僵尸网络来故意提供错误标签）

选项3:

主题标头中的字词适合做标签。

我们并不是要预测主题标头中的字词，因此其不是标签，但是作为特征(用来预测标签)可能还不错。

选项4:

我们将使用无标签样本来训练模型。

虽然有的网络的确会用到无标签样本来训练模型(例如自编码网络)，但是我们这里主要是分类问题，因此我们会使用有标签的样本。