机器学习基础词汇|小白10mins入门|西瓜书笔记

基本概念：

以实物西瓜为例

数据集（data set）：（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），······
样本（sample）：（色泽=青绿；根蒂=蜷缩；敲声=浊响）
特征（feature）or 属性（attribute）：“色泽”，“根蒂”，“敲声”
属性值（attribute value）：“青绿”，“蜷缩”，“浊响”
属性空间（attribute space）or 输入空间：以“色泽”，“根蒂”，“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。
特征向量（feature vector）：属性空间中的每个点对应着的一个坐标向量

以数学术语为例

数据集： $D=\{x_1, x_2,...,x_m\}$ ，表示包含m个示例的数据集
属性：有 $d$ 个属性，则每个示例 $x_i=(x_{i1};x_{i2};...;x_{id})$ 是 $d$ 维样本空间 $\chi$ 中的一个向量，即 $x_i \in \chi$
属性值： $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值
维数(dimensionality)： $d$ 是 $x_i$ 的维数

机器学习过程：

第一步：找到或者逼近真相的规律
- 训练（training）：从数据中学得模型的过程，这个过程通过执行某个学习算法来完成
- 训练数据（training data）：训练过程中使用的数据
- 训练样本（training sample）：关于一个事件或对象的的每条记录
- 训练集（training set）：训练样本组成的集合
- 假设（hypothesis）：学得模型对应了关于数据的某种潜在的规律
- 真相（ground-truth）：潜在规律的自身，可理解为唯一规律
- 学习器（learner）：学习算法（有参数需要设置）在给定数据和参数空间上的实例化
第二步：建立预测的模型
- 预测（prediction）：训练样本的“结果”信息
  
  e.g （色泽=青绿；根蒂=蜷缩；敲声=浊响） $\to$ （好瓜）
  
  ((色泽=青绿；根蒂=蜷缩；敲声=浊响), (好瓜))
- 标记（label）：示例中的（好瓜)，
- 样例（example）：拥有了标记信息的示例
- 标记空间（label space）or 输出空间：所有标记的集合
- 数学语言： $(x_i,y_i)$ 表示第i个样例，其中 $y_i \in \gamma$ 是示例 $x_i$ 的标记， $\gamma$ 是标记空间
第三步：测试
- 测试（training）：学得模型后，用它进行预测的过程
- 测试样本（training sample）：被预测的样本
- 过程：在学得模型 $f$ 后，对测试例 $x$ ，可得到其预测标记 $y=f(x)$

机器学习分类

监督性学习：（supervised learning）：代表类型有分类与回归，有预测任务，即给定自变量 $x$ ,预测因变量 $y$
- 分类（classification）：针对预测的是离散值，如“好瓜”与“坏瓜”
  - 二分类（binary classification）：只涉及两个类别分类，其中一个为“正类”（positive class），另一个为“负类”（negative class），通常令 $\gamma=\{-1,1\}$ 或者 $\gamma=\{0,1\}$
  - 多分类（multi-class classification）：涉及多个类别分类，通常令 $|\gamma|>2$
  - 预测任务过程：通过对训练集 $\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ 进行学习，建立一个从输入空间 $\chi$ 到输出空间 $\gamma$ 的映射 $f:\chi \to \gamma$
- 回归（regression）：针对预测的是连续值，如西瓜成熟度0.95,0.37,0.21等，通常令 $\gamma = R$ ， $R$ 为实数集
非监督性学习：（unsupervised learning）：代表类型有聚类
- 聚类(clustering)：将训练集中的西瓜分成若干组，每组称为一个“簇”（cluster）,这些自动形成的簇分别对应不同的潜在概念，例如“浅色瓜”，“深色瓜”，“本地瓜”，“外地瓜”等等。
- 特点：聚类学习中，“浅色瓜”，“深色瓜”，“本地瓜”，“外地瓜”等概念事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息。

机器学习目标

模型泛化(generalization)能力：使得学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好，具有强泛化能力的模型能很好地适用于整个样本空间
训练集通常只是样本空间的一个很小的采样，但我们仍然希望它很好地反映出样本空间的特性。
通常假设样本空间中全体样本服从一个未知**“分布”（distribution） $D$ ，获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”**（independent and identically distributed,简称 $i.i.d.$ ）。一般，训练样本越多，得到的关于 $D$ 的信息越多，就越有可能通过学习获得具有强泛化能力的模型。

发布了37 篇原创文章 · 获赞 0 · 访问量 822

私信关注