周志华《机器学习》第一章总结+课后习题

第一章介绍了本书所涉及基本术语和概念。

数据集、样本、特征（属性）、特征空间（属性空间、样本空间、输入空间）、特征向量、维数；

学习（训练）、训练数据、训练样本、假设、预测、标记、样例、标记空间（输出空间）、测试、测试样本；

分类、回归、聚类、簇、监督、无监督、泛化能力；

归纳、演绎、概念学习、假设空间、版本空间；

归纳偏好（偏好）、奥卡姆剃刀；

同时简要介绍了机器学习的发展史。

符号主义、连接主义、机器学习、数据挖掘、统计学；

泛化能力：学得模型适用于新样本的能力，具有强泛化能力的模型能很好地适用于整个样本空间。

假设空间：在所有假设（hypothesis）组成的空间中，例如文中西瓜的例子，假设空间形如（色泽=？）∩（根蒂=？）∩（敲声=？）的可能取值组成。若色泽、根蒂、敲声分别有3、3、3种可能的取值，则假设空间规模大小为（3+1）*（3+1）*（3+1）+1=65，其中+1是指没有好瓜这个东西，即∅。

版本空间：学习过程中是基于有限样本训练集进行的，因此，可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合“，称之版本空间。
归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”

习题 1.1 若表 1.1 只包含 1 和 4 两个样例，试给出相应的样本空间。已知色泽有两种取值，根蒂和敲声分别有三种取值。

表 1.1 西瓜数据集

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍蜷	沉闷	否

　　首先说明概念1：版本空间（version space）是概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合。即是版本空间是假设空间中于样本满足一致的“假设集合”, 是基于样本决定的。

　　 GB 是最大泛化正假设边界（maximally General positive hypothesis Boundary）；
　　 SB 是最大精确正假设边界（maximally Specific positive hypothesis Boundary）。
　　对于二维空间中的“矩形”假设（如图），绿色代表正例，红色代表负例。学习过程中，可以不断删除与正例不一致的假设、和（或）与反例一致的假设。最终将会获得与训练集一致（即对所有训练样本能够进行正确判断）的假设，即学得结果。如图 GB 与 SB 所围成的区域中的矩形即为版本空间。

解答：由于色泽有两种取值，根蒂和敲声分别有三种取值，再各自加上“通配”（即取什么值都无关紧要）这一项，一共是 (2+1)×(3+1)×(3+1)=48

种取值，另外还有一种取值是“好瓜这个概念根本不成立”即空集。故假设空间大小为 48+1=49。现在根据已有样本 1 和 4，可以排除掉假设空间中所有“色泽 ≠青绿”或“根蒂 ≠蜷缩”或“声响 ≠

浊响”的项，以及由于有样本 1 即好瓜的存在，排除空集那一项，所以得到的版本空间大小为 8，用合取式表示则是以下 8 种取值：

（ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ * ） \land （ 敲 声 ＝ * ） （ 色 泽 ＝ * ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ * ） （ 色 泽 ＝ * ） \land （ 根 蒂 ＝ * ） \land （ 敲 声 ＝ 浊 响 ） （ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ * ） （ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ * ） \land （ 敲 声 ＝ 浊 响 ） （ 色 泽 ＝ * ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ 浊 响 ） （ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ 浊 响 ）

习题 1.2 解答：刚已经分析了有 8 种取值，故假设空间中的假设用析取范式表达形式如下：

好 瓜 \leftrightarrow \lor \lor \lor \lor \lor \lor (（ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ * ） \land （ 敲 声 ＝ * ）) (（ 色 泽 ＝ * ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ * ）) (（ 色 泽 ＝ * ） \land （ 根 蒂 ＝ * ） \land （ 敲 声 ＝ 浊 响 ）) (（ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ * ）) （ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ * ） \land （ 敲 声 ＝ 浊 响 ）) (（ 色 泽 ＝ * ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ 浊 响 ）) (（ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ 浊 响 ）)

　　
其中任意一个取值可以去掉（即去掉取值的约束，从而扩大了结果的空间），比如

好 瓜 \leftrightarrow \lor (（ 色 泽 ＝ 青 绿 ） \land （ 根 蒂 ＝ * ） \land （ 敲 声 ＝ * ）) (（ 色 泽 ＝ * ） \land （ 根 蒂 ＝ 蜷 缩 ） \land （ 敲 声 ＝ * ）)

　　也是一种假设。但不可将 8 个都去掉，这样对“好瓜”就毫无约束了，这样存在样本 4 是不符的。故包含以上 8 额合取式中任意非 0 个的析取范式表达式都是合理的假设，即共有 28−1=255 种假设。

首先给出相关定义，合取范式：Conjunctive normal form - Wikipedia，析合范式：Disjunctive normal form - Wikipedia。

习题 1.3 解答：由于含有噪声，故可对样本空间放宽约束。对于那些只与极少数样本不一致却与极大多数样本一致的假设，仍将其保留在版本空间中。

最简单的设计就是：训练样本一致特征越多越好（一致性比例越高越好）为归纳偏好。
另外，考虑归纳偏好应尽量与问题相匹配，这里可使归纳偏好与噪声分布相匹配。

周志华《机器学习》第一章总结+课后习题

猜你喜欢