1 引言
- 1.1 机器学习的定义:机器学习就是计算机自动获取知识,研究如何使用计算机来模拟人类学习活动的一门学科,研究计算机获取新知识和新技能、识别现有知识、不断改善性能、实现自我完善的方法。
2 基本术语
-
2.1 数据集:对于一个问题,一些数据所组成的集合叫做数据集。
其中用于模型训练的那部分称为训练集,用于测试模型好坏的叫做测试集。
(数据集好比100个西瓜,训练集为80个西瓜用作训练,20个用于测试集)训练集相当于课本,学生根据课本里的内容来掌握知识。
验证集相当于作业,通过作业可以知道不同学生学习情况、进步的速度快慢。
测试集相当于考试,考的题是平常都没有见过,考察学生举一反三的能力。
- 2.2 样本:数据集中的一组数据。(100个西瓜中的1个西瓜)
- 2.3 属性:也称做特征。(西瓜的颜色、大小、纹理等)
- 2.4 特征向量:一个样本的所有特征所构成的向量。(例如某西瓜的特征向量=[深绿色, 大, 花纹整齐])
- 2.5 训练:根据某学习算法,使用训练集进行训练,得到一个模型。(好比你平时上课做随堂测验)
- 2.6 评估:用于评价你得到的模型。(给你评分)
- 2.7 有监督学习:训练集中的数据都是带有标签的。(集合中的西瓜,都是知道哪个好哪个坏)
分类问题:根据特征进行分类。【值域是个有限集合】(好的一组,坏的一组,结果就是在好和坏里选)
回归问题:根据特征进行预测。【值域是实数集】(知道这个瓜的颜色、大小、花纹等特征,然后预测这个瓜的甜度) - 2.8 无监督学习:输入的数据没有标签。(一车西瓜,不知道哪个是好的,也不知道哪个是坏的)
聚类问题:根据特征进行聚类。(一车西瓜,假设分成了两类,但我不知道他是分成了好和坏,还是分成了酸和甜)
3 假设空间
- 3.1 科学推理的两大手段就是“归纳”和“演绎”。
归纳:从特殊到一般的过程,从具体的特例推出一般性规律。
演绎:从一般到特殊的过程,从一般性规律推出具体的特例。 - 3.2 假设空间:由形如 “(色泽= ?)^(根蒂=?)^(敲声=?)” 的所有可能取值所形成的假设组成。
版本空间:针对于某个数据集,数据集中所出现的形如 “(色泽= ?)^(根蒂=?)^(敲声=?)” 的所有取值组合。【参考博客】1 色泽=*,根蒂=*,敲声=* 2 色泽=青绿,根蒂=*,敲声=* 3 色泽=乌黑,根蒂=*,敲声=* 4 色泽=*,根蒂=蜷缩,敲声=* 5 色泽=*,根蒂=硬挺,敲声=* 6 色泽=*,根蒂=稍蜷,敲声=* 7 色泽=*,根蒂=*,敲声=浊响 8 色泽=*,根蒂=*,敲声=清脆 9 色泽=*,根蒂=*,敲声=沉闷 10 色泽=青绿,根蒂=蜷缩,敲声=* 11 色泽=青绿,根蒂=硬挺,敲声=* 12 色泽=青绿,根蒂=稍蜷,敲声=* 13 色泽=乌黑,根蒂=蜷缩,敲声=* 14 色泽=乌黑,根蒂=硬挺,敲声=* 15 色泽=乌黑,根蒂=稍蜷,敲声=* 16 色泽=青绿,根蒂=*,敲声=浊响 17 色泽=青绿,根蒂=*,敲声=清脆 18 色泽=青绿,根蒂=*,敲声=沉闷 19 色泽=乌黑,根蒂=*,敲声=浊响 20 色泽=乌黑,根蒂=*,敲声=清脆 21 色泽=乌黑,根蒂=*,敲声=沉闷 22 色泽=*,根蒂=蜷缩,敲声=浊响 23 色泽=*,根蒂=蜷缩,敲声=清脆 24 色泽=*,根蒂=蜷缩,敲声=沉闷 25 色泽=*,根蒂=硬挺,敲声=浊响 26 色泽=*,根蒂=硬挺,敲声=清脆 27 色泽=*,根蒂=硬挺,敲声=沉闷 28 色泽=*,根蒂=稍蜷,敲声=浊响 29 色泽=*,根蒂=稍蜷,敲声=清脆 30 色泽=*,根蒂=稍蜷,敲声=沉闷 31 色泽=青绿,根蒂=蜷缩,敲声=浊响 32 色泽=青绿,根蒂=蜷缩,敲声=清脆 33 色泽=青绿,根蒂=蜷缩,敲声=沉闷 34 色泽=青绿,根蒂=硬挺,敲声=浊响 35 色泽=青绿,根蒂=硬挺,敲声=清脆 36 色泽=青绿,根蒂=硬挺,敲声=沉闷 37 色泽=青绿,根蒂=稍蜷,敲声=浊响 38 色泽=青绿,根蒂=稍蜷,敲声=清脆 39 色泽=青绿,根蒂=稍蜷,敲声=沉闷 40 色泽=乌黑,根蒂=蜷缩,敲声=浊响 41 色泽=乌黑,根蒂=蜷缩,敲声=清脆 42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷 43 色泽=乌黑,根蒂=硬挺,敲声=浊响 44 色泽=乌黑,根蒂=硬挺,敲声=清脆 45 色泽=乌黑,根蒂=硬挺,敲声=沉闷 46 色泽=乌黑,根蒂=稍蜷,敲声=浊响 47 色泽=乌黑,根蒂=稍蜷,敲声=清脆 48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷 49 Ø
4 归纳偏好
这个问题就是针对于“有多个模型时,选择哪个模型更好”。
比如得到了多个假设:① 好瓜 = 【色泽=*,根蒂=*,敲声=沉闷】
② 好瓜 = 【色泽=青绿,根蒂=蜷缩,敲声=*】
③ 好瓜 = 【色泽=*,根蒂=稍蜷,敲声=沉闷】这里有三张方案来判断好瓜,那么我们可以设置“偏好”,来得到最好的一个。
比如我觉得色泽青绿的更可能是好瓜,那么我就更偏爱②,算法最后就更加倾向②。
- 4.1 奥卡姆剃刀:“若有多个假设与观察一致,则选最简单的那个”。
参考博客