【西瓜书】第一章 绪论

1 引言

  • 1.1 机器学习的定义:机器学习就是计算机自动获取知识,研究如何使用计算机来模拟人类学习活动的一门学科,研究计算机获取新知识和新技能、识别现有知识、不断改善性能、实现自我完善的方法。

2 基本术语

  • 2.1 数据集:对于一个问题,一些数据所组成的集合叫做数据集。
                        其中用于模型训练的那部分称为训练集,用于测试模型好坏的叫做测试集。
                        (数据集好比100个西瓜,训练集为80个西瓜用作训练,20个用于测试集)

    训练集相当于课本,学生根据课本里的内容来掌握知识

    验证集相当于作业,通过作业可以知道不同学生学习情况、进步的速度快慢。

    测试集相当于考试,考的题是平常都没有见过,考察学生举一反三的能力。

  • 2.2 样本:数据集中的一组数据。(100个西瓜中的1个西瓜)
  • 2.3 属性:也称做特征。(西瓜的颜色、大小、纹理等)
  • 2.4 特征向量:一个样本的所有特征所构成的向量。(例如某西瓜的特征向量=[深绿色, 大, 花纹整齐])
  • 2.5 训练:根据某学习算法,使用训练集进行训练,得到一个模型。(好比你平时上课做随堂测验)
  • 2.6 评估:用于评价你得到的模型。(给你评分)
  • 2.7 有监督学习:训练集中的数据都是带有标签的。(集合中的西瓜,都是知道哪个好哪个坏)
          分类问题:根据特征进行分类。【值域是个有限集合】(好的一组,坏的一组,结果就是在好和坏里选)
          回归问题:根据特征进行预测。【值域是实数集】(知道这个瓜的颜色、大小、花纹等特征,然后预测这个瓜的甜度)
  • 2.8 无监督学习:输入的数据没有标签。(一车西瓜,不知道哪个是好的,也不知道哪个是坏的)
          聚类问题:根据特征进行聚类。(一车西瓜,假设分成了两类,但我不知道他是分成了好和坏,还是分成了酸和甜)

3 假设空间

  • 3.1 科学推理的两大手段就是“归纳”和“演绎”。
          归纳:从特殊到一般的过程,从具体的特例推出一般性规律。
          演绎:从一般到特殊的过程,从一般性规律推出具体的特例。
  • 3.2 假设空间:由形如 “(色泽= ?)^(根蒂=?)^(敲声=?)” 的所有可能取值所形成的假设组成。
    1 色泽=*,根蒂=*,敲声=*
    2 色泽=青绿,根蒂=*,敲声=*
    3 色泽=乌黑,根蒂=*,敲声=*
    4 色泽=*,根蒂=蜷缩,敲声=*
    5 色泽=*,根蒂=硬挺,敲声=*
    6 色泽=*,根蒂=稍蜷,敲声=*
    7 色泽=*,根蒂=*,敲声=浊响
    8 色泽=*,根蒂=*,敲声=清脆
    9 色泽=*,根蒂=*,敲声=沉闷
    10 色泽=青绿,根蒂=蜷缩,敲声=*
    11 色泽=青绿,根蒂=硬挺,敲声=*
    12 色泽=青绿,根蒂=稍蜷,敲声=*
    13 色泽=乌黑,根蒂=蜷缩,敲声=*
    14 色泽=乌黑,根蒂=硬挺,敲声=*
    15 色泽=乌黑,根蒂=稍蜷,敲声=*
    16 色泽=青绿,根蒂=*,敲声=浊响
    17 色泽=青绿,根蒂=*,敲声=清脆
    18 色泽=青绿,根蒂=*,敲声=沉闷
    19 色泽=乌黑,根蒂=*,敲声=浊响
    20 色泽=乌黑,根蒂=*,敲声=清脆
    21 色泽=乌黑,根蒂=*,敲声=沉闷
    22 色泽=*,根蒂=蜷缩,敲声=浊响
    23 色泽=*,根蒂=蜷缩,敲声=清脆
    24 色泽=*,根蒂=蜷缩,敲声=沉闷
    25 色泽=*,根蒂=硬挺,敲声=浊响
    26 色泽=*,根蒂=硬挺,敲声=清脆
    27 色泽=*,根蒂=硬挺,敲声=沉闷
    28 色泽=*,根蒂=稍蜷,敲声=浊响
    29 色泽=*,根蒂=稍蜷,敲声=清脆
    30 色泽=*,根蒂=稍蜷,敲声=沉闷
    31 色泽=青绿,根蒂=蜷缩,敲声=浊响
    32 色泽=青绿,根蒂=蜷缩,敲声=清脆
    33 色泽=青绿,根蒂=蜷缩,敲声=沉闷
    34 色泽=青绿,根蒂=硬挺,敲声=浊响
    35 色泽=青绿,根蒂=硬挺,敲声=清脆
    36 色泽=青绿,根蒂=硬挺,敲声=沉闷
    37 色泽=青绿,根蒂=稍蜷,敲声=浊响
    38 色泽=青绿,根蒂=稍蜷,敲声=清脆
    39 色泽=青绿,根蒂=稍蜷,敲声=沉闷
    40 色泽=乌黑,根蒂=蜷缩,敲声=浊响
    41 色泽=乌黑,根蒂=蜷缩,敲声=清脆
    42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷
    43 色泽=乌黑,根蒂=硬挺,敲声=浊响
    44 色泽=乌黑,根蒂=硬挺,敲声=清脆
    45 色泽=乌黑,根蒂=硬挺,敲声=沉闷
    46 色泽=乌黑,根蒂=稍蜷,敲声=浊响
    47 色泽=乌黑,根蒂=稍蜷,敲声=清脆
    48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷
    49 Ø
    版本空间:针对于某个数据集,数据集中所出现的形如 “(色泽= ?)^(根蒂=?)^(敲声=?)” 的所有取值组合。【参考博客

4 归纳偏好

这个问题就是针对于“有多个模型时,选择哪个模型更好”。

比如得到了多个假设:① 好瓜 = 【色泽=*,根蒂=*,敲声=沉闷】
                                    ② 好瓜 = 【色泽=青绿,根蒂=蜷缩,敲声=*】
                                    ③ 好瓜 = 【色泽=*,根蒂=稍蜷,敲声=沉闷】

这里有三张方案来判断好瓜,那么我们可以设置“偏好”,来得到最好的一个。

比如我觉得色泽青绿的更可能是好瓜,那么我就更偏爱②,算法最后就更加倾向②。

  • 4.1 奥卡姆剃刀:“若有多个假设与观察一致,则选最简单的那个”。

参考博客

猜你喜欢

转载自blog.csdn.net/Vici__/article/details/103948386