西瓜书自学笔记第一章——绪论

本章主要介绍了机器学习是干什么的，以及机器学习的一些基本术语，发展历程和应用现状。

我举一个工程当中的例子来说明一下这一章讲到的机器学习基本属于和概念的内容。假设现在我们有若干张书的照片和若干张笔的照片，我们的任务是让计算机利用现有的照片进行学习，然后输入一张新的照片时，判断出是书的照片还是比的照片，这就是机器学习要完成的任务。

1、现有的若干张照片叫做“数据集”。
2、“数据集”中的某一张照片叫做一个“样本”。
3、每一张照片的像素点叫做“特征”，如果这个照片的像素是200200的彩色照片，那么这个“样本”具有200200*3个“特征”。
每个“特征”的取值叫做“特征值”，对于照片，特征值就是像素点的取值。
4、每一个“样本”从模型的角度来讲也可以称为“特征向量”。
5、每个样本所具有的“特征”的个数叫做样本的“维度”。
6、若干张照片组成的“数据集”用“特征值表示”，以数据集的“维度”将所有可能的“特征值”张成一个n维空间，这些数据的集合就是“样本空间”。
7、这些照片根据一定的机器学习算法会得到一个“模型”，这个“模型”可以用来预测新的图片。
8、通过机器学习算法得到“模型”的过程叫做“训练”。
9、“数据集”中用于“训练”的每个样本叫做“训练样本”，他们组成的集合就是“训练集”。
10、用于测试“模型”的性能的样本叫做“测试样本”，他们组成的集合就是“测试集”
11、在统计学习中，往往结果会表示为[0,1]的浮点数，作为分类的概率，如果越接近1，“模型”就认为是某类的可能性越大，反正则越小，得到这个值的学习任务称为“回归”。
12、我们期待得到的“模型”可以更准确的预测新的照片，“模型”的这种能力叫做“泛化”。
13、学习得到的分类方案叫做“假设空间”，学习的过程就是在所有“假设空间”进行搜索，确定符合“偏好”的假设空间的过程。

西瓜书自学笔记第一章——绪论

猜你喜欢