现实中更多时候，需依据任务特点对现有套路进行改造融通，算法是死的，思想才是活的。欲行此道，则务须把握算法背后的思想脉络，无论创新科研还是应用实践，皆以此为登堂入室之始。 ——周志华

1 引言

何为机器学习：致力于研究通过计算机的手段，利用经验来改善系统自身的性能。

1.2 基本术语

分类：给出一个离散的预测，比如：好瓜，坏瓜。（包括二分类和多分类）

回归：预测的是连续值，如：好瓜的概率是0.65或瓜的成熟度是0.7。

聚类：将训练集分成若干组（簇），这些簇可能对应一些潜在的概念划分，如“浅色瓜”、“深色瓜”。

监督学习和无监督学习：根据训练数据是否拥有标记信息，学习任务可以分为两类，监督学习（分类、回归）和无监督学习（聚类）。

特征向量（或者特征）：反映事件或对象在某方面的性质。例如：西瓜的色泽。

回归问题：通常是用来预测一个值，如预测房价、未来的天气情况等等。回归是对真实值的一种逼近预测。

分类问题：判断失误的类别。

样本空间：下面的图表示样本空间（sample space）或者属性空间（attribute space），我们也可以看到这是一个三维空间。当维数更多时候，则有更高维空间与之对应。

1.3 假设空间

归纳：特殊到一般，即泛化。

演绎：一般到特殊，即特化。

假设空间：每种特征的组合都认为是一个假设（hypothesis），如，（色泽=青绿；根蒂=蜷缩；敲声=浊响）是一种假设，所有假设的集合我们称之为假设空间。如果“色泽”，“根蒂”，“敲声”分别有3，2，2种可能，（每种特征值都要加一种任意值可能）那么假设空间的规模就是4x3x3 + 1 = 37。(每种特征值在计算可能性的时候都加了一种可能，就是任意值可能，我们用“*”表示，最后结果加1是由于存在一种可能就是根本没有“好瓜”这个概念，或者说“好瓜”跟这些特征都没有关系)

版本空间：当给定一个训练集进行训练的时候，模型会逐渐删除那些与正例不一致的假设和（或）与反例一致的假设，最后获得与训练集一致的假设。而剩下的这些假设可能有多个，我们把剩下的这些假设的集合称之为“版本空间”。

简而言之，假设空间是我们没有进行训练之前的各种情况集合，而版本空间是我们训练完成后的结果。

1.4 归纳偏好

归纳偏好作用：如果没有偏好，所有的假设都是等效的，那么输出的判断将会没有意义，如书上的对瓜的预测时而是好瓜时而是坏瓜，这样的结果没有意义。偏好有利于产生“正确”的模型。

奥卡姆剃刀定律（确立正确的偏好）：即简单有效原则，说的是，切勿浪费较多东西去做，用较少的东西，同样可以做好的事情。所以，相比复杂的假设，我们更倾向于选择简单的、参数少的假设；同时，我们还希望选择更加简单的模型，使得有效的假设的数量不是很多。

NFL定理（No free lunch）：指在机器学习中，没有给定具体问题的情况下，或者说面对的是所有问题的情况下，没有一种算法能说得上比另一种算法好。换成我们的俗话讲，就是“不存在放之四海而皆准的方法”。只有在给定某一问题，比如说给“用特定数据集给西瓜进行分类”，才能分析并指出某一算法比另一算法好。这就要求我们具体问题具体分析，而不能指望找到某个算法后，就一直指望着这个“万能”的算法。

1.5 发展历程

略。

1.6 应用现状

略。

《机器学习》绪论

1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

1.5 发展历程

1.6 应用现状

猜你喜欢

《机器学习》 绪论

1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

1.5 发展历程

1.6 应用现状

猜你喜欢

《机器学习》绪论