斯坦福大学机器学习笔记——机器学习基础以及有监督学习和无监督学习举例说明

机器学习（machine learning）的定义：

一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在任务T时的性能有所提升。

以一个例子作为解释：

例如：假设一个判断邮件是否为垃圾邮件的程序，则对应的任务T为给定一个邮件，分类这个邮件是否为垃圾邮件；经验E为给定的已经知道的邮件的标签；性能P这个程序正确分类垃圾邮件和非垃圾邮件的数量或者比率。

机器学习的分类：

机器学习主要分为两类：有监督学习（supervised learning）和无监督学习（unsupervised learning）

有监督学习：就是给定的数据集中的每个样本都有其对应的正确答案（分类问题是类别，回归问题是确定的数值）有监督学习又可以分为分类和回归。分类最终的输出结果为离散的值（这里的分类数量可以是多个，不仅仅只是代表二分类）；而回归的输出结果为一系列连续值属性。

例如：

1.你有一批同样的货物，有上千件一模一样的货物等待出售，这时你想预测接下来的三个月能卖出多少件？（预测的结果是多少件，为一个连续的数值，所以该问题为回归问题）。

2.你有许多客户，你想写一个软件来检验每一个用户的账户。对于每一个账户，你要判断他们是否曾经被盗过？（输出的结果要么为被盗过，要么为没被到过，所以这是一个典型的二分类问题）。

无监督学习：数据集中的每个样本没有给出正确的答案，算法就能够实现聚类或者预测。

扫描二维码关注公众号，回复： 2462311 查看本文章

有监督和无监督的判断举例：

1.垃圾邮件分类问题，在数据集给定的为一些有标签的样本，该样本是垃圾邮件还是非垃圾邮件，所以该问题为有监督学习中的分类问题。

2.房价预测问题，给定的数据集为一些带有房价的样本，预测某一个房子的价格，由于房子的价格是一些连续的数值，所以该问题是有监督学习中的回归为题。

3.分组划分问题，给定一些客户，将这些客户聚集为几类，给定的客户集中的每个客户不会给出其对应的类别，让算法自动聚类。所以该问题是无监督问题。

本人也是刚刚学习机器学习的人，有什么问题欢迎各位指正，一起学习。