数据挖掘，机器学习，和人工智能的区别是什么？

本来我以为不需要解释这个问题的，到底数据挖掘(data mining)，机器学习(machine learning)，和人工智能(AI)有什么区别，但是前几天因为有个学弟问我，我想了想发现我竟然也回答不出来，我在知乎和博客上查了查这个问题，发现还没有人写过比较详细和有说服力的对比和解释。那我根据以前读的书和论文，还有和与导师之间的交流，尝试着说一说这几者的区别吧，毕竟一个好的定义在未来的学习和交流中能够发挥很大的作用。同时补上数据科学和商业分析之间的关系。能力有限，如有疏漏，请包涵和指正。

导论

本文主要分为两部分，第一部分阐述数据挖掘(data mining)，机器学习(machine learning)，和人工智能(AI)之间的区别。这三者的区别主要是目的不同，其手段(算法，模型)有很大的重叠，所以容易混淆。第二部分主要阐述以上的技能与数据科学(data science)的关系，以及数据科学(data science)和商业分析(business analytics)之间的关系。其实，数据科学家本身就是商业分析师在大数据时代的延伸。

数据挖掘VS. 机器学习VS. 人工智能

数据挖掘 (data mining): 有目的地从现有大数据中提取数据的模式(pattern)和模型(model)

关键字：模式提取，大数据

数据挖掘是从现有的信息(existing information)中提取数据的模式(pattern)和模型(model)，即精选出最重要的信息，以用于未来机器学习和AI的数据使用。其核心目的是找到数据变量之间的关系。其发展出来的主要原因是大数据的发展，用传统的数据分析的方式已经无能处理那么多大量的看似不相关的数据的处理，因此需要数据挖掘技术去提取各种数据和变量之间的相互关系，从而精炼数据。
数据挖掘本质上像是机器学习和人工智能的基础，他的主要目的是从各种各样的数据来源中，提取出超集(superset)的信息，然后将这些信息合并让你发现你从来没有想到过的模式和内在关系。这就意味着，数据挖掘不是一种用来证明假说的方法，而是用来构建各种各样的假说的方法。数据挖掘不能告诉你这些问题的答案，他只能告诉你，A和B可能存在相关关系，但是它无法告诉你A和B存在什么相关关系。
当然，数据挖掘会使用大量机器学习的算法，但是其特定的环境和目的和机器学习不太一样。

机器学习(machine learning): 自动地从过往的经验中学习新的知识。

关键字: 自动化，自我优化，预测，需要training data，推荐系统

机器学习其实是人工智能很重要的一部分，因为目前，在实践过程中，大多数的人工智能处理的任务，其实是用机器学习的方式完成的。机器学习可以用程序和算法自动地学习，只要被设计好了，这个程序可以进行自我优化。同时，机器学习需要一定数量的训练数据集(training data set)，用于构建来自过往经验的“知识” 。
且机器学习目前在实践中最重要的功能便是预测结果。比如机器学习已经学习结束了，现在有一个新的数据集x，需要预测其分类，机器学习算法会根据这个新数据与学习后的“知识”相匹配(实际上，知识指的是学习后的数学模型)，然后将这个数据集x分类某类C去。再比较常见的机器学习，比如amazon的推荐系统。

人工智能(AI): 一个广泛的概念，本质是用数据和模型去为现有的问题(existing problems)提供解决方法(solutions).

关键字：和人一样处理问题，技术的合集

人工智能是一个与机器学习和数据挖掘相对不同的概念，人工智能的目的是为了去创造有智力的电脑(不知道怎么翻译好，可以假设其为机器人)。在实践中，我们希望这个电脑可以像有智力的人一样处理一个任务。因此，理论上人工智能几乎包括了所有和机器能做的内容，当然也包括了数据挖掘和机器学习的内容，同时还会有监视(monitor)和控制进程(process control)的内容。