数据挖掘、机器学习、人工智能学习笔记

1、三者的区别与联系：

　　https://www.cnblogs.com/DonJiang/p/5744535.html

　　www.raincent.com/content-10-7812-1.html

2、数据挖掘并没有机器学习探索人的学习机制这一科学发现任务，数据挖掘中的数据分析是针对海量数据进行的，等等。从某种意义上说，机器学习的科学成分更重一些，而数据挖掘的技术成分更重一些。

　　机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。

　　数据挖掘的核心是找到数据变量之间的关系，数据挖掘技术的出现主要还是大数据的发展，用传统的数据分析的方式已经无能处理那么多大量的看似不相关的数据的处理，因此需要数据挖掘技术去提取各种数据和变量之间的相互关系，从而精炼数据。比如数据挖掘能告诉你A和B存在相关性，但是告诉不了你为什么A和B存在相关性。所以说数据挖掘是偏技术成面的，它本质上更像是机器学习和人工智能的基础。

　　先来看一则有关数据挖掘的故事——“尿布与啤酒”。

　　总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛拥有世界上最大的数据仓库系统。为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘。一个意外的发现是：跟尿布一起购买最多的商品竟然是啤酒!这是数据挖掘技术对历史数据进行分析的结果，反映了数据的内在规律（自我理解：这就是数据挖掘的成果，告诉你A和B有关系）。那么，这个结果符合现实情况吗?是否有利用价值?

　　于是，沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析，从而揭示出隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买完尿布后又随手带回了他们喜欢的啤酒。

　　既然尿布与啤酒一起被购买的机会很多，于是沃尔玛就在其各家门店将尿布与啤酒摆放在一起，结果是尿布与啤酒的销售量双双增长。

机器学习：

　　是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。

　　机器学习可以用程序和算法自动地学习，只要被设计好了，这个程序可以进行自我优化。机器学习目前在实践中最重要的功能便是预测结果。比如机器学习已经学习结束了，现在有一个新的数据集x，需要预测其分类，机器学习算法会根据这个新数据与学习后的“知识”相匹配(实际上，知识指的是学习后的数学模型)，然后将这个数据集x分类到某类C去。再比较常见的机器学习，比如amazon的推荐系统。

　　这里回到啤酒和尿布的故事上，经过关联算法对数据进行挖掘发现A和B有关(比如啤酒和尿布)，关联度40%，C和D有关，关联度30%，等等发现很多关联性。这样数据挖掘的工作就完成了，剩下的就是机器学习的过程，发现关联性之后再设计好一定的程序和算法形成机器学习模型，然后通过使用不同样本的数据让机器进行自我学习，或者随着数量量的日益增长模型自身进行学习并自我优化。这样学习成熟之后就可以应用到实际业务场景中去，比如上面说的对数据进行分类，电商的推荐系统。

人工智能：

　　人工智能是一个与机器学习和数据挖掘相对不同的概念，人工智能的目的是为了去创造有智力的电脑(不知道怎么翻译好，可以假设其为机器人)。在实践中，我们希望这个电脑可以像有智力的人一样处理一个任务。因此，理论上人工智能几乎包括了所有和机器能做的内容，当然也包括了数据挖掘和机器学习的内容，同时还会有监视(monitor)和控制进程(process control)的内容。

数据挖掘、机器学习、人工智能学习笔记

猜你喜欢