1.1 引言

machine learning
model == learning algorithm

1.2 基本术语
数据集（data set）：一组记录的集合
示例（instance）/ 样本（sample）：集合中的一条记录
属性（attribute）/ 特征（feature）
属性值（attribute value）
属性空间（attribute space）/ 样本空间（sample space）/ 输入空间：attribute张成的空间
特征向量（feature vector）：把属性a1/a2/a3作为三个坐标轴，它们张成一个用于描述示例的三维空间，每一个示例都可以在这个空间中找到自己的坐标。空间中的每一个点对应一个坐标向量，所以把示例称作 feature vector。
维数（dimensionality）：
- D = {x1, x2 ... xm} 表示m个instance的data set
- xi = (xi1, xi2 ... xid) d维sample space X 中的一个向量，xi属于X，xij 是属性的取值，d是sample xi 的维数。多少属性就是多少维数。
学习（learning）、训练（training）：从data中学得model的过程。
假设（hypothesis）：学得model对应了关于data的某种潜在的规律。
真相、真实（ground-truth）：潜在规律自身，学习过程就是为了找出或者逼近真相。
模型、学习器（learner）
预测（prediction）
标记（label）
样例（example）：拥有label的instance / sample。用（xi, yi）表示第i个示例。
标记空间（label space）、输出空间：label的集合。
分类（classification）：预测离散值，例如“好瓜”“坏瓜”
回归（regression）：预测连续值，例如西瓜成熟度0.95、0.37。
测试（testing）：学得model之后，使用其进行prediction的过程。
测试样本（testing sample）：被prediction的sample。例如，学得 f 后，对测试样本 x ，可得到其预测标记 y = f(x).
聚类（clustering）：将training set中的西瓜分成若干组，每一组为一个簇（cluster）。**自动形成的cluster可能对应一些潜在的概念划分，”浅色瓜“，”
1.3 假设空间
版本空间（version space）
归纳（induction）：从特殊到一般的“泛化”（generalization）过程，从具体的事实总结出一般的规律。
演绎（deduction）：从一般到到特殊的“特化”（specialization）过程，从基础原理推演出具体情况。比如，根据数学公理推演。
归纳学习
- 狭义的归纳学习（从training data中获得concept，也叫概念学习）
- 广义的归纳学习（从example中学习）
最基本的概念学习：布尔概念学习，0 / 1 布尔值。

1.4 归纳偏好
why

机器学习第一章绪论笔记

1.1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

1.5 发展历程

1.6 应用现状

1.7 阅读材料

猜你喜欢

机器学习 第一章 绪论 笔记

1.1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

1.5 发展历程

1.6 应用现状

1.7 阅读材料

猜你喜欢

机器学习第一章绪论笔记