机器学习概览

几十年前的光学字符识别（OCR）、20世纪90年代的席卷了世界垃圾邮件过滤器、从更好的推荐系统到语音识别

监督式与无监督式学习，在线学习与批量学习，基于实例的与基于模型的学习。

介绍一个经典的机器学习项目的工作流程，讨论你可能会面临的主要挑战，并介绍如何对机器学习系统进行评估和微调。

介绍一些基本术语。

本章的内容具有高度的概括性，代码量较少，所述的知识都很简单。

什么是机器学习

机器学习是一门能够让编程计算机从数据中学习的计算机科学。

训练用来学习的这些示例，我们称之为训练集。

每一个训练示例称为训练实例或者是训练样本。

我们可以使用被正确分类的邮件的比率来衡量，这个特殊的性能衡量标准被称为精度，经常用来衡量分类任务。

试想用传统的方法编写一个垃圾邮件过滤器，该如何做？

解决这些问题并不算简单，程序可能会变成一长串复杂的规则，导致很难维护。

相比之下，基于机器学习技术的垃圾邮件过滤器，通过对比垃圾邮件示例和常规邮件示例，自动检测垃圾邮件中异常，频繁的单词模式，自动学习哪些单词和短语可以作为垃圾邮件分类的预测预测因素。

这样的程序简短很多而且便于维护。

基于机器学习技术的垃圾邮件过滤器也可以自动适应变化，自动标记垃圾邮件中新出现的模式，而不需要人为修改规则。

机器学习另一个闪光点，是针对那些使用传统方法过于复杂——甚至根本不存在已知算法的问题，例如语音识别。迄今为止，最好的解决方案是写一个能够自己学习的算法，然后针对每个字给它提供许多录音示例。

机器学习算法能够帮助人类学习：通过检视机器学习算法以了解它们学到了什么。有时候，这可能会揭示一些人类未曾意识到的关联性或者新趋势，从而帮助我们更好的解决问题。

应用机器学习技术来挖掘海量数据，可以帮助我们发现那些此前并非立见端倪的模式，这个过程被称为数据挖掘。

简而言之，机器学习的伟大之处在于：