机器学习 第一章 绪论 笔记

1.1 引言

  • machine learning
  • model == learning algorithm

    1.2 基本术语

  • 数据集(data set):一组记录的集合
  • 示例(instance)/ 样本(sample):集合中的一条记录
  • 属性(attribute)/ 特征(feature)
  • 属性值(attribute value)
  • 属性空间(attribute space)/ 样本空间(sample space)/ 输入空间:attribute张成的空间
  • 特征向量(feature vector):把属性a1/a2/a3作为三个坐标轴,它们张成一个用于描述示例的三维空间,每一个示例都可以在这个空间中找到自己的坐标。空间中的每一个点对应一个坐标向量,所以把示例称作 feature vector。
  • 维数(dimensionality):
    • D = {x1, x2 ... xm} 表示m个instance的data set
    • xi = (xi1, xi2 ... xid) d维sample space X 中的一个向量,xi属于X,xij 是属性的取值,d是sample xi 的维数。多少属性就是多少维数
  • 学习(learning)、训练(training):从data中学得model的过程。
  • 假设(hypothesis):学得model对应了关于data的某种潜在的规律。
  • 真相、真实(ground-truth):潜在规律自身,学习过程就是为了找出或者逼近真相
  • 模型、学习器(learner)
  • 预测(prediction)
  • 标记(label)
  • 样例(example):拥有label的instance / sample。用(xi, yi)表示第i个示例。
  • 标记空间(label space)、输出空间:label的集合。
  • 分类(classification):预测离散值,例如“好瓜”“坏瓜”
  • 回归(regression):预测连续值,例如西瓜成熟度0.95、0.37。
  • 测试(testing):学得model之后,使用其进行prediction的过程。
  • 测试样本(testing sample):被prediction的sample。例如,学得 f 后,对测试样本 x ,可得到其预测标记 y = f(x).
  • 聚类(clustering):将training set中的西瓜分成若干组,每一组为一个簇(cluster)。**自动形成的cluster可能对应一些潜在的概念划分,”浅色瓜“,”
  • 1.3 假设空间

  • 版本空间(version space)
  • 归纳(induction):从特殊到一般的“泛化”(generalization)过程,从具体的事实总结出一般的规律。
  • 演绎(deduction):从一般到到特殊的“特化”(specialization)过程,从基础原理推演出具体情况。比如,根据数学公理推演。
  • 归纳学习
    • 狭义的归纳学习(从training data中获得concept,也叫概念学习)
    • 广义的归纳学习(从example中学习)
  • 最基本的概念学习:布尔概念学习,0 / 1 布尔值。

    1.4 归纳偏好

  • why

1.5 发展历程

1.6 应用现状

1.7 阅读材料

猜你喜欢

转载自www.cnblogs.com/daemonFlY/p/11608732.html