第一章·导论

数据挖掘主要有两大类:

  • 预测任务:根据其他属性的值,预测特定属性的值
  • 描述任务:导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常)

4种主要的数据挖掘任务:

  • 预测建模:
  1. 分类:用于预测离散的目标变量(如预测web与用户是否会在网上买书,预测花类型)。
  2. 回归:用于预测连续的目标变量(如预测未来股票价格)。
  • 关联分析:用来发现描述数据中强关联特征的模式。(如找事物间联系,通过购物篮数据发现买尿布的顾客多半会买牛奶)。
  • 聚类分析:发现紧密相关的观测值组群,每个族群中的每个观测值都尽可能相同(如对顾客进行分类
  • 异常检测:识别特征显著不同于其他数据的观测值。这样的观测值被称为异常值或者离群点,目标是发现真正异常点,而避免将正确对象标注为异常点(如检验欺诈,寻找疾病的不寻常模式)

         例:信用卡欺诈检验:比如合法交易需要一系列步骤,而非法交易步骤相对简单,可以通过步骤比较,如果和合法交易步骤差距很大就有可能是非法交易。

猜你喜欢

转载自www.cnblogs.com/windsWater/p/9959868.html