一、什么是机器学习？

机器学习一直没有一个官方固定的定义。但课中给出了两种解释，个人认为非常经典，易于理解。

定义一：Field of study that gives computers the ability to learn without being explicitly programmed.—— Arthur Samuel(1959) 即无需明确编程，就使得计算机有学习能力的研究领域。

值得一提的是，阿瑟.塞缪尔（Arthur Samuel）在此之前（1952年）研发出了第一个计算机跳棋程序，它是世界上第一个可以自主学习的程序。通过和该跳棋程序不断的下棋，使得该程序的跳棋技巧不断得到提升，最终甚至超过了人类水平，这是机器学习早期一个非常经典的案例。
跳棋示意图
定义二：A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 即计算机程序从经验E上学习来处理任务T，且P为性能评估，如果在T上，由P衡量的性能随着经验E的学习而提高，这就是机器学习。

下面看一个课中给出的定义二的例子：
机器学习定义二举例
这是一个邮件分类问题，基于已知邮件是否为垃圾邮件的信息，来优化邮件分类系统。此处选项一：把邮件分类为垃圾或正常邮件是机器学习的T；选项二：观察你标记的邮件是垃圾还是正常是机器学习的E；选项三：正确分类邮件的数量是机器学习的P。

此外，机器学习有其分类，主要分为如下三类：

机器学习分类	具体算法举例
监督学习	线性回归、SVM、决策树等
无监督学习	聚类、密度估计等
其他：强化学习、推荐系统等	-待学习-

所以下面分别讨论了基本的监督学习和无监督学习。

二、监督学习

监督学习的特点是，学习数据都是有标注的。如经典的房价预测案例，它的数据集中数据样本不仅给出了各自的属性值，还给出了具体的房价大小，而这个房价大小就是所谓的标注，也就是需要预测的属性，模型从带有标注的数据中学习，随后对新的数据预测其标签值。如下图所示是房价预测的一个示例。
房价预测案例
图中为简单起见，只考虑了房子的一个属性：面积（feet2），而实际还需要考虑很多其他属性如：朝向、地段等。红色的×表示已知的一批带有标注的数据，要从这些数据中学习得一种模型，使得后续预测的值比较真实，红色的直线是一次函数模型，蓝色的曲线是更复杂的模型，目标都是尽可能地模拟所有数据。模型选择的好坏，也会对预测有很大的影响（此处蓝色的模型看起来要比红色的好）。若已得到一个模型，则新给出一个输入如：房屋面积为750feet2，根据模型则可以得到预测房价为多少。

此外，房价预测也是回归问题的一个实例，所谓回归，就是预测值是连续值，此处房价是一个连续值，所以是一个回归问题。
与此对应，若预测值是离散的，则被称为分类问题，如上述提到的邮件分类，预测值只有垃圾邮件和正常邮件两个值。如下图所示，是根据肿瘤尺寸这个属性来对乳腺肿瘤进行分类的数据，标签值只有0（良性）和1（恶性）两种。
乳腺肿瘤分类
而往往不止通过一个属性进行学习，还可能通过细胞尺寸均匀度、细胞形状均匀度、患者年龄等许多属性来进行学习。
多属性数据的分类问题

三、无监督学习

无监督学习与监督学习相对，当学习数据不带有标签时，就可以看成是无监督学习，也可以理解为没有正确答案的学习。无监督学习在做的，更多的是找出数据之间的相似相关性。如下图所示，x1和x2是数据的两个属性，数据不带有标签，无监督学习会寻找数据之间的相似性，将无标注的数据划分为一个个的簇。
无监督学习示例

吴恩达《机器学习》学习笔记一——初识机器学习

吴恩达《机器学习》学习笔记一

一、什么是机器学习？

二、监督学习

三、无监督学习

猜你喜欢

吴恩达《机器学习》学习笔记一——初识机器学习

吴恩达《机器学习》学习笔记一

一、 什么是机器学习？

二、监督学习

三、无监督学习

猜你喜欢

一、什么是机器学习？