机器学习复习笔记1（第一章绪论）

1.2 基本术语

数据相关概念解释：

一组记录的集合称为一个“数据集”，其中每条记录是关于一个事件或对象的描述，称为一个“示例”或“样本”。反应事件或对象的在某方面的表现或性质的事项，例如“色泽”、“根蒂”、“敲声”，称为“属性”或“特征”；属性上的取值，例如“青绿”、“乌黑”，称为“属性值”。属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。例如我们把“色泽”、“根蒂”、“敲声”作为三个坐标轴，则他们张成一个用于描述西瓜的三维空间，每个西瓜都可以在空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”。
训练过程中使用的数据称为“训练数据”，其中每一个样本称为一个“训练样本”，训练样本组成的集合称为“训练集”，学得模型对应了关于数据的某种潜在的规律，因此亦称“假设”；这种潜在规律自身，则称为“真相”或“真实”，学习过程就是为了找出或逼近真相。
如果希望学得一个能够帮助我们判断没剖开的是不是“好瓜”的模型，仅有前面的示例数据是不够的，要建立这样关于“预测”的模型，我们需要获得训练样本的“结果”信息。这里关于示例结果的信息，例如“好瓜”，称为“标记”；拥有了标记信息的示例，则称为“样例”。一般的，所有标记的集合称之为“标记空间”或“输出空间”。

任务相关概念解释：

预测目标分三类任务：

分类任务（离散值）->二分类（好瓜；坏瓜）/多分类（冬瓜；南瓜；西瓜）
回归任务（连续值）->瓜的成熟度
聚类任务（无标记信息）->将训练集中的样本分为若干组，每组称为一个“簇”。以探究数据内在的规律（浅色瓜；深色瓜；本地瓜；外地瓜）

根据训练数据有无标记数据可分出三种学习：

监督学习：分类、回归
无监督学习：聚类
半监督学习：两者结合

泛化能力相关概念解释：

学得模型适用于新样本的能力，称为“泛化”能力。

通常假设样本空间全体样本服从一个未知“分布”D，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”。

1.3 假设空间

假设空间：训练集中所有属性的可能性的集合+属性无论取什么情况都合适的集合（即一个或多个属性被“*”替代）+概念不成立的情况（1个空集）
版本空间：与训练集一致的集合。即在假设空间中筛选出和训练集相同的集合。筛选的时候将训练集中每一条数据与假设空间中的数据一一比对，训练集中是正例的只要对应的属性有不一样就删除掉假设空间中对应的数据（对应属性是“*”的不删除），训练集中是反例的只要被包含在假设中间中的某一项时只要把那一项删除，最后假设空间中剩下的内容即为版本空间。
版本空间的另一种获得方法：将训练集中的正例进行最大泛化，然后剔除掉符合反例的数据。

1. 4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”。

为什么要有偏好？

一个问题可能会出现数个相矛盾的版本空间，因此需要有一种归纳偏好选出一种最好的模型。

偏好原则是什么？

“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，选最简单的那个”。

偏好的决定因素是什么？

学习算法自身的归纳偏好与问题是否匹配，往往会起到决定性作用。

果菌药

发布了13 篇原创文章 · 获赞 7 · 访问量 1057

私信关注

机器学习 复习笔记1（第一章 绪论）