20190326——Python机器学习 引言

机器学习能做什么呢。
每当我们打开浏览器,进行需要搜索的内容,如谷歌微软实现了学习算法来对网页进行排列。
使用微博,微信,图片分类能认出你们朋友的照片
每次收到垃圾电子邮件,进行筛选与过滤

数据挖掘,更好的了解用户,提供给用户更好的服务;电子医务记录,把医疗记录变成医学知识,更好的理解疾病;计算生物学,了解人类基因组。
另外,在一些领域中,我们不能写一段程序告诉直升飞机如何去飞,但是我们可以让直升飞机学习如何去飞。
学习算法用来理解人类的学习和了解大脑。


机器学习是什么。
第一个机器学习的定义来自于一个Arthur Samuel,一个人。编写了一个西洋棋程序,这个人很菜,于是通过编程,让西洋棋程序跟自己下了上万盘琪,通过观察布局,知道什么是好的布局,什么是坏的布局。
另一个年代比较近的定义来自于Tom Mitchell,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值p,当且仅当,有了经验E,经过P评判,程序在处理T的时候性能有所提升。

举一个例子,假设您的电子邮件程序会观察收到的邮件是否被你标记成垃圾邮件。T为是否处理正确的垃圾邮件,E应该是手动进行处理的垃圾邮件,p是概率解决垃圾邮件。
那么就引出来监督学习和无监督学习。


监督学习。

横轴表示房子的面积,单位是平方英尺,纵轴表示放假,单位是千美元。那基于这组数据,假如你有个朋友,他有一套750平方英尺的房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。

监督学习指的是我们给学习算法一个数据集,这个数据集由“正确答案”组成,在房价的例子,我们给了一系列房子的数据,我们给定数据集中每个样本的正确加个,即它们实际的售价然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题,我们试着推测出一个连续值的结果,即房子的价格。

在举一个例子,查看病历来推测乳腺癌症良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大

横轴表示肿瘤大小,纵轴表示1,0表示是否为恶性肿瘤。分类指的是,我们试着推测出离散的输出值,所以你希望预测离散输出。

在其他的机器学习问题中,可能会遇到不止一种特征,举个例子,我们不仅知道肿瘤的尺寸,还知道对应患者的年龄,在其他机器学习的问题中,我们通常有更多的特征。

我们以后会讲一个算法,叫支持向量机,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。


无监督学习

在无监督学习中,我们已知的数据,看上去有点不一样。不同于监督学习的数据的样子,即无监督学习中没有任何的标签或者是相同的标签。所以我们已知数据集,却不知道如何处理,也未告知每个数据点事什么,别的都不知道,就是一个数据集。你能从数据中找到某种结构?针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

猜你喜欢

转载自blog.csdn.net/qq_36344771/article/details/88824506