机器学习---定义、用途、算法的分类、假设空间与归纳偏好、奥卡姆剃刀原则

1. 机器学习的定义

基于历史经验的，描述和预测的理论、方法和算法。

从历史数据中，发现某些模式或规律（描述），利用发现的模式和规律进行预测。

2. 机器学习能做什么

机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识

别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战

略游戏和机器人运用。

机器学习方法在大型数据库中的应用被称为数据挖掘（Data Mining）。

大量的金属氧化物以及原料从矿山开采出来，处理后产生少量的珍贵物质。数据挖掘中，需要处理

大量的数据以构建简单有用的模型，例如高精度的预测模型。

机器学习还可以解决视觉、语音识别以及机器人方面的许多问题。

通过分析一个人脸部图像的多个样本，学习程序可以捕获到那个人特有的模式。然后进行辨认。

3. 机器学习算法的分类

扫描二维码关注公众号，回复： 16985843 查看本文章

监督学习：数据集中的每个样本有相应的正确答案。

比如：在婴儿的大脑中，可以将大脑看为模型。

监督学习算法图示：

分类和回归的区别在于输出变量的类型。

定量输出称为回归，或者说是连续变量预测；

定性输出称为分类，或者说是离散变量预测。

比如：预测明天的气温是多少度，这是一个回归任务；

预测明天是阴、晴还是雨，这是一个分类任务；

预测人脸、鼻子、眼睛坐标位置；这是一个回归任务；

预测这是谁的人脸？是小明的脸吗？这是一个分类任务；

预测这张图是猫？狗？牛？鸟？这是一个分类任务；

预测这张图是猫的概率?这是一个回归任务。

无监督学习图示：

比如：Google News搜集网上的新闻，并且根据新闻的主题将新闻分成许多簇, 然后将在同一个簇

的新闻放在一起。

对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程度。然后根据测量结果可以用聚

类算法将他们分成不同的类型。这就是一种无监督学习, 因为我们只是给定了一些数据，而并不知

道哪些是第一种类型的人，哪些是第二种类型的人等等。

4. 机器学习过程

预处理的过程：

可能需要用多多种算法，算法融合的过程：

5. 假设空间与归纳偏好

假设空间是指所有可能的能满足样本输入和输出的假设函数h(x)的集合。假设函数一定是一个无穷

大的集合。也就是说，如果样本是一串有穷的离散点（xi，yi），i属于1到N，那么能够拟合这这些

点的无穷多个函数都是可能的假设函数。

归纳偏好是一个能挑选最佳假设函数的基准。

以韦小宝的7个老婆为例，这7个老婆均满足小宝的要求，因此构成了大小为7的假设空间。（实际

上，假设空间的大小一定是无穷大的。为了说明问题，我们暂时以7为大小）。那么，如何衡量哪

一个假设空间中哪一个假设函数（老婆）最好呢？如果以温柔体贴为偏好来选，当然是小双；如果

以小宝的迷恋为偏好来讲，假设函数就是阿珂。

一般情况下，我们都使用“奥卡姆剃刀”原则，也就是选择最简单的假设函数。也就是变量最少，变

量的幂指数最小的函数。也就是说，一次函数能拟合时就不选二次函数作为假设函数。

奥卡姆剃刀原理（Ockham's Razor）是由14的世纪哲学家、圣方济各会修士奥卡姆的威廉

（William of Occam，约1285年至1349年）提出的一个原理。这个原理是告诫人们“切勿浪费较多

东西去做用较少的东西同样可以做好的事情。”后来以一种更为广泛的形式为人们所知，即“如无必

要，勿增实体。”

当你有两个处于竞争地位的理论能得出同样的结论，那么简单的那个更好。如果你有两个原理，它

们都能解释观测到的事实，那么你应该使用简单的那个，直到发现更多的证据。对于现象最简单的

解释往往比较复杂的解释更正确。如果你有两个类似的解决方案，选择最简单的。需要最少假设的

解释最有可能是正确的。或者以这种自我肯定的形式出现：让事情保持简单。