【西瓜书】第一章绪论

1 引言

1.1 机器学习的定义：机器学习就是计算机自动获取知识，研究如何使用计算机来模拟人类学习活动的一门学科，研究计算机获取新知识和新技能、识别现有知识、不断改善性能、实现自我完善的方法。

2 基本术语

2.1 数据集：对于一个问题，一些数据所组成的集合叫做数据集。
其中用于模型训练的那部分称为训练集，用于测试模型好坏的叫做测试集。
（数据集好比100个西瓜，训练集为80个西瓜用作训练，20个用于测试集）

训练集相当于课本，学生根据课本里的内容来掌握知识。

验证集相当于作业，通过作业可以知道不同学生学习情况、进步的速度快慢。

测试集相当于考试，考的题是平常都没有见过，考察学生举一反三的能力。
2.2 样本：数据集中的一组数据。（100个西瓜中的1个西瓜）
2.3 属性：也称做特征。（西瓜的颜色、大小、纹理等）
2.4 特征向量：一个样本的所有特征所构成的向量。（例如某西瓜的特征向量=[深绿色, 大, 花纹整齐]）
2.5 训练：根据某学习算法，使用训练集进行训练，得到一个模型。（好比你平时上课做随堂测验）
2.6 评估：用于评价你得到的模型。（给你评分）
2.7 有监督学习：训练集中的数据都是带有标签的。（集合中的西瓜，都是知道哪个好哪个坏）
分类问题：根据特征进行分类。【值域是个有限集合】（好的一组，坏的一组，结果就是在好和坏里选）
回归问题：根据特征进行预测。【值域是实数集】（知道这个瓜的颜色、大小、花纹等特征，然后预测这个瓜的甜度）
2.8 无监督学习：输入的数据没有标签。（一车西瓜，不知道哪个是好的，也不知道哪个是坏的）
聚类问题：根据特征进行聚类。（一车西瓜，假设分成了两类，但我不知道他是分成了好和坏，还是分成了酸和甜）

3 假设空间

3.1 科学推理的两大手段就是“归纳”和“演绎”。
归纳：从特殊到一般的过程，从具体的特例推出一般性规律。
演绎：从一般到特殊的过程，从一般性规律推出具体的特例。

3.2 假设空间：由形如 “（色泽= ？）^（根蒂=？）^（敲声=？）” 的所有可能取值所形成的假设组成。

1 色泽＝*，根蒂＝*，敲声＝*
2 色泽＝青绿，根蒂＝*，敲声＝*
3 色泽＝乌黑，根蒂＝*，敲声＝*
4 色泽＝*，根蒂＝蜷缩，敲声＝*
5 色泽＝*，根蒂＝硬挺，敲声＝*
6 色泽＝*，根蒂＝稍蜷，敲声＝*
7 色泽＝*，根蒂＝*，敲声＝浊响
8 色泽＝*，根蒂＝*，敲声＝清脆
9 色泽＝*，根蒂＝*，敲声＝沉闷
10 色泽＝青绿，根蒂＝蜷缩，敲声＝*
11 色泽＝青绿，根蒂＝硬挺，敲声＝*
12 色泽＝青绿，根蒂＝稍蜷，敲声＝*
13 色泽＝乌黑，根蒂＝蜷缩，敲声＝*
14 色泽＝乌黑，根蒂＝硬挺，敲声＝*
15 色泽＝乌黑，根蒂＝稍蜷，敲声＝*
16 色泽＝青绿，根蒂＝*，敲声＝浊响
17 色泽＝青绿，根蒂＝*，敲声＝清脆
18 色泽＝青绿，根蒂＝*，敲声＝沉闷
19 色泽＝乌黑，根蒂＝*，敲声＝浊响
20 色泽＝乌黑，根蒂＝*，敲声＝清脆
21 色泽＝乌黑，根蒂＝*，敲声＝沉闷
22 色泽＝*，根蒂＝蜷缩，敲声＝浊响
23 色泽＝*，根蒂＝蜷缩，敲声＝清脆
24 色泽＝*，根蒂＝蜷缩，敲声＝沉闷
25 色泽＝*，根蒂＝硬挺，敲声＝浊响
26 色泽＝*，根蒂＝硬挺，敲声＝清脆
27 色泽＝*，根蒂＝硬挺，敲声＝沉闷
28 色泽＝*，根蒂＝稍蜷，敲声＝浊响
29 色泽＝*，根蒂＝稍蜷，敲声＝清脆
30 色泽＝*，根蒂＝稍蜷，敲声＝沉闷
31 色泽＝青绿，根蒂＝蜷缩，敲声＝浊响
32 色泽＝青绿，根蒂＝蜷缩，敲声＝清脆
33 色泽＝青绿，根蒂＝蜷缩，敲声＝沉闷
34 色泽＝青绿，根蒂＝硬挺，敲声＝浊响
35 色泽＝青绿，根蒂＝硬挺，敲声＝清脆
36 色泽＝青绿，根蒂＝硬挺，敲声＝沉闷
37 色泽＝青绿，根蒂＝稍蜷，敲声＝浊响
38 色泽＝青绿，根蒂＝稍蜷，敲声＝清脆
39 色泽＝青绿，根蒂＝稍蜷，敲声＝沉闷
40 色泽＝乌黑，根蒂＝蜷缩，敲声＝浊响
41 色泽＝乌黑，根蒂＝蜷缩，敲声＝清脆
42 色泽＝乌黑，根蒂＝蜷缩，敲声＝沉闷
43 色泽＝乌黑，根蒂＝硬挺，敲声＝浊响
44 色泽＝乌黑，根蒂＝硬挺，敲声＝清脆
45 色泽＝乌黑，根蒂＝硬挺，敲声＝沉闷
46 色泽＝乌黑，根蒂＝稍蜷，敲声＝浊响
47 色泽＝乌黑，根蒂＝稍蜷，敲声＝清脆
48 色泽＝乌黑，根蒂＝稍蜷，敲声＝沉闷
49 Ø

版本空间：针对于某个数据集，数据集中所出现的形如 “（色泽= ？）^（根蒂=？）^（敲声=？）” 的所有取值组合。【参考博客】

4 归纳偏好

这个问题就是针对于“有多个模型时，选择哪个模型更好”。

比如得到了多个假设：① 好瓜 = 【色泽＝*，根蒂＝*，敲声＝沉闷】
② 好瓜 = 【色泽＝青绿，根蒂＝蜷缩，敲声＝*】
③ 好瓜 = 【色泽＝*，根蒂＝稍蜷，敲声＝沉闷】

这里有三张方案来判断好瓜，那么我们可以设置“偏好”，来得到最好的一个。

比如我觉得色泽青绿的更可能是好瓜，那么我就更偏爱②，算法最后就更加倾向②。

4.1 奥卡姆剃刀：“若有多个假设与观察一致，则选最简单的那个”。

参考博客

https://blog.csdn.net/kieven2008/article/details/81582591

【西瓜书】第一章 绪论

1 引言

2 基本术语

3 假设空间

4 归纳偏好

猜你喜欢

【西瓜书】第一章绪论