吴恩达《机器学习》课程笔记——第一章：绪论初识机器学习

【重要提示】：本人机器学习课程的主要学习资料包括：吴恩达教授的机器学习课程和黄广海博士的中文学习笔记。感谢吴恩达教授和黄广海博士的知识分享和无私奉献。作为机器学习小白，计划每周末记录一周以来的学习内容，总结回顾。希望大家多多挑错，也愿我的学习笔记能帮助到有需要的人。

1.1 什么是机器学习

卡内基梅隆大学的Tom Mitchell提出了一种机器学习的定义：电脑程序要完成任务（T），如果电脑程序获取关于任务（T）的经验（E）越多，就表现（P）越好，那么就可以说这个程序“学习”了关于任务（T）的经验。举个例子，Samuel编写了一个西洋棋程序。该程序要完成下棋的任务（T），西洋棋程序自己跟自己下了上万盘棋，并总结更容易赢的布局方式（E），该经验越多，那么程序就越清楚什么是好的布局，什么是不好的布局，该下棋程序表现更佳（P）。

我们不仅要掌握机器学习的算法，更重要的是也需要熟知每一种算法怎么使用。熟知不同算法的使用方法可以极大地提高效率，避免不必要的麻烦。目前的学习算法可主要分为两种，即监督学习和无监督学习，在下面的章节中具体介绍。

1.2 监督学习

我将监督学习和无监督学习归纳总结成下图：

监督学习指的就是我们给学习算法一个数据集，这个数据集由“正确答案”组成。比如在预测房价问题中，我们给了一系列房子的数据，我们给定数据集中每个样本的正确价格（即它们实际的售价），然后运用学习算法，算出更多的正确答案。用术语来讲，这叫做回归问题。关于回归：回归是指变量之间的统计关系。①若先有模型，则已知X可求Y；②而“回归”的意思就是我们通过收集X与Y来确定实际上存在的关系模型：收集X、Y，从而确定模型。

再举一个监督学习的例子：假设说你想通过查看病历来推测乳腺癌是否为良性。让我们来看一组数据：这个数据集中，横轴表示肿瘤的大小，纵轴上，我标出1和0表示是或者不是恶性肿瘤。如果是恶性则记为1，不是恶性或者说良性记为0。

我有5个良性肿瘤样本，在1的位置有5个恶性肿瘤样本。那么机器学习的问题就在于，你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲，这是一个分类问题。关于分类：分类是指推测出离散的输出值，0或者1。事实上分类问题不仅有二值分类，还有多元分类。如希望预测的离散输出为0、1、2、3。在其它一些机器学习问题中，可能会遇到不止一种特征。举个例子，我们不仅知道肿瘤的尺寸，还知道对应患者的年龄。在其他机器学习问题中，我们通常有更多的特征。

图中右侧的英文翻译为：clump thickness（肿块厚度）、uniformity of Cell Size（肿瘤细胞尺寸的一致性）、uniformity of Cell Shape（肿瘤细胞形状的一致性）。

以上就是监督学习的内容。

1.3 无监督学习

对于监督学习里的每条数据，我们已经清楚地知道，训练集对应的正确答案（right answers given）。而无监督学习中，没有任何的标签或者是有相同的标签或者就是没标签。针对数据集，无监督学习就能判断出数据有两个不同的聚集簇。这是一个，那是另一个，二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

无监督学习的应用实例：①新闻事件分类：谷歌新闻每天都在，收集非常多，非常多的网络的新闻内容。它再将这些新闻分组，组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件，自动地把它们聚类到一起。②市场分割：许多公司有大型的数据库，存储消费者信息。所以，检索这些顾客数据集，自动地发现市场分类，并自动地把顾客划分到不同的细分市场中，才能自动并更有效地销售或不同的细分市场一起进行销售。

以上，就是吴恩达机器学习课程第一章的主要内容。