数据挖掘的概念与技术读书笔记

第一章引论
数据挖掘可以挖掘的数据类型：
数据库数据、数据仓库、事务数据、其他类型数据
数据仓库的下钻与上卷
下钻指的是挖掘更深层次的数据，上卷是指挖掘更大层面的数据。
例如：有一个三维表格，
x轴代表地区：北京、天津、济南
y轴代表时间：1月、2月、3月
z轴代表产品系列：安全产品、娱乐产品、卫生产品、食用产品
那么通过数据挖掘，我们可以挖掘到北京1月份安全产品的销量。
通过下钻，我们可以挖掘到北京1月1号安全产品的销量。
通过上卷，我们可以看到北京今年安全产品的销量。

事务数据
一个事务通常代表一个行为，一个动作。购买的动作，订票的动作，点击的动作。
购买动作往往跟着一系列具体的事情，比如说购买的订单里含有的商品。
订票的订单里含有票务信息，例如从济南到哈尔滨。
点击的动作往往后边跟着网页，或者点击所赋予的使命，一系列命令等。

其他类型的数据
各种各样形式的数据，文本、视频、音乐、时间流数据、空间流数据。

数据特征化
查询一年之内在淘宝上花费超过10000元钱的用户的特征。

年龄40-45岁，有工作，信用评级良好。

数据区分
客服经理想比较两组顾客，定期购买计算机产品的顾客和不定期购买计算机产品的顾客。

频繁购买计算机的顾客80%在20-40岁之间，受过大学教育。
不频繁购买计算机的顾客60%年龄太大或者太小，没有学位。

下钻会找到更多的区别。
频繁项集：在事务数据中频繁一起出现的商品的集合。
频繁序列模式：频繁出现的子序列是说在用户的购买行为中，存在着先买电脑再买鼠标键盘最后买电脑贴纸和电脑包这种有先后顺序的子序列。
关联分析
例如：分析电脑和软件在销售的过程中有什么关联?

buy(X,computer)→buy（X,software） [support = 1%,confidence = 50%]

这里的数据是说在所有的事物数据中，只有1%的用户同时买了电脑和软件，而且以为顾客购买了计算机，那么他购买软件的概率是50%
单个谓词的关联规则成为单维关联规则。
还有多维关联规则。
例如：年龄40-50岁的年收入在40000-80000元人民币的人群中，购买计算机的概率。

age[X,40…50]^income[X,40000-80000]→buy[X,computer] =[0.2%,60%]

该规则支出，在所有的事务数据中，有0.2%的数据满足要求且购买了计算机，那么这种人群购买计算机的概率是60%。

分类和回归
分类是指通过数据给商品打上标签，比方说某件商品在促销活动中的表现属于‘抢手商品’；
回归则是预测一种线性的收益，比如说某一件产品在未来三个月的销量如何。

聚类分析
聚类分析不适用类标号，聚类分析是指数据对象因为彼此之间数据的相似性而形成的簇进而产生聚成的类。

数据挖掘的概念与技术读书笔记

猜你喜欢