机器学习---定义、用途、算法的分类、假设空间与归纳偏好、奥卡姆剃刀原则

1. 机器学习的定义

基于历史经验的,描述和预测的理论、方法和算法。

从历史数据中,发现某些模式或规律(描述),利用发现的模式和规律进行预测。

2. 机器学习能做什么

机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识

别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战

略游戏和机器人运用。

机器学习方法在大型数据库中的应用被称为数据挖掘(Data Mining)。

大量的金属氧化物以及原料从矿山开采出来,处理后产生少量的珍贵物质。数据挖掘中,需要处理

大量的数据以构建简单有用的模型,例如高精度的预测模型。

机器学习还可以解决视觉、语音识别以及机器人方面的许多问题。

通过分析一个人脸部图像的多个样本,学习程序可以捕获到那个人特有的模式。然后进行辨认。

3. 机器学习算法的分类

扫描二维码关注公众号,回复: 16985843 查看本文章

监督学习:数据集中的每个样本有相应的正确答案。

比如:在婴儿的大脑中,可以将大脑看为模型。

 监督学习算法图示:

分类和回归的区别在于输出变量的类型。

定量输出称为回归,或者说是连续变量预测;

定性输出称为分类,或者说是离散变量预测。

比如:预测明天的气温是多少度,这是一个回归任务;

预测明天是阴、晴还是雨,这是一个分类任务;

预测人脸、鼻子、眼睛坐标位置;这是一个回归任务;

预测这是谁的人脸?是小明的脸吗?这是一个分类任务;

预测这张图是猫?狗?牛?鸟?这是一个分类任务;

预测这张图是猫的概率?这是一个回归任务。

无监督学习图示:

比如:Google News搜集网上的新闻,并且根据新闻的主题将新闻分成许多簇, 然后将在同一个簇

的新闻放在一起。

对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程度。然后根据测量结果可以用聚

类算法将他们分成不同的类型。这就是一种无监督学习, 因为我们只是给定了一些数据,而并不知

道哪些是第一种类型的人,哪些是第二种类型的人等等。

4. 机器学习过程

 预处理的过程:

 可能需要用多多种算法,算法融合的过程:

5. 假设空间与归纳偏好

假设空间是指所有可能的能满足样本输入和输出的假设函数h(x)的集合。假设函数一定是一个无穷

大的集合。也就是说,如果样本是一串有穷的离散点(xi,yi),i属于1到N,那么能够拟合这这些

点的无穷多个函数都是可能的假设函数。

归纳偏好是一个能挑选最佳假设函数的基准。

以韦小宝的7个老婆为例,这7个老婆均满足小宝的要求,因此构成了大小为7的假设空间。(实际

上,假设空间的大小一定是无穷大的。为了说明问题,我们暂时以7为大小)。那么,如何衡量哪

一个假设空间中哪一个假设函数(老婆)最好呢?如果以温柔体贴为偏好来选,当然是小双;如果

以小宝的迷恋为偏好来讲,假设函数就是阿珂。

一般情况下,我们都使用“奥卡姆剃刀”原则,也就是选择最简单的假设函数。也就是变量最少,变

量的幂指数最小的函数。也就是说,一次函数能拟合时就不选二次函数作为假设函数。

奥卡姆剃刀原理(Ockham's Razor)是由14的世纪哲学家、圣方济各会修士奥卡姆的威廉

(William of Occam,约1285年至1349年)提出的一个原理。这个原理是告诫人们“切勿浪费较多

东西去做用较少的东西同样可以做好的事情。”后来以一种更为广泛的形式为人们所知,即“如无必

要,勿增实体。”

当你有两个处于竞争地位的理论能得出同样的结论,那么简单的那个更好。如果你有两个原理,它

们都能解释观测到的事实,那么你应该使用简单的那个,直到发现更多的证据。对于现象最简单的

解释往往比较复杂的解释更正确。如果你有两个类似的解决方案,选择最简单的。需要最少假设的

解释最有可能是正确的。或者以这种自我肯定的形式出现:让事情保持简单。

猜你喜欢

转载自blog.csdn.net/weixin_43961909/article/details/131731712
今日推荐