西瓜书读书笔记（第一章）

引言部分：

首先引言部分说到了，为什么看到微湿路面，感到和风，看到晚霞就判断明天是好天气，为什么一个西瓜色泽青绿，根蒂卷缩，敲声浑浊就判断是好瓜，是因为在我们生活中积累了这样的经验，通过对经验的利用，我们就能对出现的新情况作出判断。而机器学习就是要机器通过对经验的学习，对新出现的情况作出判断。

其中“经验”在计算机中以数据的形式存在，因此机器学习研究的内容，是关于这些数据的“模型”算法，也就是学习算法（learning algorithm）有了学习算法，再提供经验数据，就能产生基于这些经验数据的模型，通过模型，我们可以对新情况（如：一个没有剖开的瓜）作出判断（瓜的好坏）

基本术语：

进行机器学习，首先我们要有数据。（个人见解对一个实体进行学习，必须要知道它的属性集）对于西瓜我们可能要收集

它的色泽，根蒂，敲声等数据，这些数据的集合叫做数据集（data set）集合中的每一条记录是关于一个对象（如：西瓜）的描述，我们称为一个“示例”（instance）或一个样本（sample），我们把实体或对象在某方面的具体表现（如：西瓜的色泽）称为属性（attribute）或特征（feature），属性具体的取值称为属性值（attribute value），属性张成的空间称为属性空间（attribute space）或样本空间（sample space）。假如我们把西瓜的三个属性分别对应三个坐标，那么每个西瓜都对应一个三维的坐标位置，我们把这样一个示例（一组属性的元祖）称之为特征向量（feature vector）

从数据中学得模型的过程我们称为“学习”（learning）或者“训练”（training）过程通过某个学习算法完成，训练用到的数据称为训练数据（training data），每一个参与训练的样本构成了“训练集”（training set）学得的模型对应了关于数据的某种潜在的规律，也称为“假设”（hypothesis）

同时我们要验证我们学得的模型或得出的假设是否接近真相（ground-truth）我们就需要建立一个预测（prediction）模型

需要获得训练样本的“结果”信息如（（色泽=青绿，根蒂=卷缩，敲声=浑浊），好瓜）这里的好瓜就是结果，我们称为“标签”（label），有了标签的示例，称为样例（example）用（xi，yi）表示第i个样例，yi∈Y是示例xi的标签，Y是所以标签的集合，称为“标记空间”（label space）

分类：

如果我们预测的结果是离散的比如（好瓜，坏瓜）此类学习任务称为“分类”（classification），如果结果为连续的，称为“回归”（regression）学得模型后，使用它进行预测的过程称为“测试”（testing），用来预测的样本称为“测试样本” 例如用学得的模型f，对测试例x进行预测预测标记记为否f（x），假如我们学习的样本没有标记信息，此类学习任务称为“聚类”（clustering）根据训练数据是否带有标记学习任务可以分为两类 1.带标签的称为“监督学习”（supervised learning） “监督学习”又分为“分类”（classification）和“回归”（regression），2.“无监督学习”（unsupervised learning）如“聚类”（clustering）。

当然，机器学习的目标是使得我们学习的模型能很好的适应“新样本”，学得模型对“新样本”的适应能力称为“泛化”（generalization）能力。通常来说，假设空间中的全体样本服从一个未知的分布（distribution）D，我们获得的样本是独立的从这个样本中采样获得的，即“独立同分布”（independent and identically distribution，即i.i.d）

假设空间：

归纳（induction）和演绎（deduction）是科学推理的两大基本手段，归纳是从特殊到一般的“泛化”（generation）的过程

而演绎是一般到特殊的“特化”（specialization）过程，从“样例”中学习就是一个归纳的过程，也称为“归纳学习”

我们把学习的过程看做是一个在所有的假设（hypothesis）空间搜索的过程，搜索目标是找到与“训练集”匹配（fit）的假设，假设的表示一旦确定，假设的空间规模也就确定了。在现实生活中我们往往面临着很大的假设空间，但是学习过程是基于有限的样本进行的，因此，可能有多个假设与训练集一致，即存在一个与训练集一致的假设空间，也称为“版本空间”（version space）

归纳偏好：

我们通过学习得到的模型对应了假设空间中的一个假设，假设空间或者说版本空间给我们带来的麻烦，假如有多个与训练集一致的假设，但是他们在面临新样本是产生了不同的预测，我们该如何选择？

这多个与训练集一致的假设其实它们自身会用某种偏好，对于西瓜的预测，有的假设更相信色泽，有的假设更相信敲声，有的假设更相信根蒂等等。不同假设的不同偏好称为归纳偏好（induction bias）

假如我们将训练样例（xi，yi）在坐标图中作处理，会有多条曲线经过这些点，这些曲线的轨迹并不一致。这些曲线就对应着与训练集一致的假设。

那么有没有一般性的原则来从版本空间选择假设作为我们学得的模型？

“奥卡姆剃刀”（Occam's razor）是一种常用的原则，即从多个假设的选择最简单的假设。比如最平滑的的预测曲线。

然而，我们需要注意的是“奥卡姆剃刀”本身存在不同的诠释，什么更简单本来就是不明确的，也就是说，需要在特定的标准下，也就是在特定的场合下我们才能评判那个假设更“简单”，即算法的归纳偏好要与问题匹配。

“天下没有免费的午餐”定理（NFL）指出不同的算法的总误差是相同的。不过NFL定理是基于f的均匀分布，现实实际情况并非如此，因此，算法的归纳偏好要与问题匹配。

发展历程什么的就不写了。

新手，误喷。

如有错误，请批评指正。

（第二章等我看完第二章再更）

西瓜书读书笔记（第一章）

猜你喜欢