机器学习系列文章（前言）：什么是机器学习？

文艺复兴以来，源远流长的科学精神和逐步形成的学术规范，使西方国家在自然科学的各个领域取得了垄断性优势；也正是这样的传统，使美国在信息技术发展的六十多年间名家辈出、独领风骚。在商业化进程中，美国的产业界与教育界越来越紧密第结合，计算机科学中的许多泰山北斗同时身处科研和教学的最前线，由此而产生的经典科学著作，不仅擘划了研究的范畴，还揭示了学术的源变，既遵守学术规范，有自有学者个性，其价值并不会因年月的流逝而减退。

一、什么是机器学习

在让机器解决某项复杂的智能任务时，我们的机器缺乏知识，但作为补偿我们有支持这种知识的数据实例。所以可以通过让机器在数据中学习知识，让机器发现某些模式或规律。从而帮助我们做出最能拟合正确结果的决策。机器学习在构建数学模型时利用了统计学理论，因为其核心任务就是由样本进行推理。

换句话说，机器学习是从数据中学习规则也称为知识抽取。因为，规则是一种解释数据的简单模型，而观察该模型我们就能够得到潜在的数据处理的解释。我们用规则拟合数据，会得到比数据更简单的解释。例：一旦掌握了加法规则，就不必记忆每对可能数的和是多少。

数据挖掘：机器学习方法在大型数据库中的应用称为数据挖掘。

模式识别：通过程序捕捉某些现实物体特有的模式，从而实现机器识别问题。

二、机器学习中的常见应用

经过长时间计算机科学、统计学、脑科学等领域各位名家的不断探索研究，机器学习已经具备了坚实的理论基础。机器相关学习技术也应用在了很多现实环境中。如：

1、关联性学习

购物篮分析

2、分类

模式识别问题、人脸识别、医学诊断、语音识别、生物测定学、离群点检测

3、回归

4、增强学习：系统的输出是动作序列，在有些情况下单个的动作不是很重要，重要的是策略，即达到目标的正确动作的序列。

非监督学习：我们的目标是发现数据中的规律。输入空间存在着某种结构，使得特定的模式比其他模式更常出现，而我们希望知道哪些经常发生，哪些不常发生。在统计学中，这称为密度估计。一种常用的方法是聚类。

三、其他重点解释及发展历史

机器学习的目标并不是理解人类和动物学习的过程，而是像任何工程领域一样，机器学习旨在构建有用的系统。用模型拟合数据，通过寻找解释观察数据的简单模型，尝试抽取知识。

为什么需要从数据中抽取知识？原因一：数据量巨大，不能依赖人工处理原因二：人工分析费用昂贵。因此，计算机科学家想出能够自动分析数据且能够自动从信息中抽取信息的计算机模型。

统计学在机器学习领域的发展过程中起到了重要的理论指导，但计算机科学又为统计学的数据计算任务提供了保障。在统计学中，从特殊观测到一般的描述称为推断，而学习称为估计。分类在统计学中称为判别式分析。

四、总结

本文介绍了参考机器学习经典著作，结合个人理解，较为简洁的阐述了机器学习领域中部分关键名词及机器学习的发展历程。后续文章笔者将会详细总结机器学习中各种算法，方便各位读者查阅理解。

引：机器学习导论