四种任务
数据挖掘的过程通常分为四种主要的任务:
预测建模。主要两种方法:分类和回归。
分类:预测离散目标变量;
回归:预测连续目标变量;
eg:预测鸢尾花的种类。(Dataset:http://www.ics.uci.edu/~mlearn)关联分析。发现描述数据中强关联特征的模式。
eg:购物篮分析,如{尿布}–>{牛奶}- 聚类分析。发现紧密相关的观测值组群。
eg:文档聚类:词频对(w,c)集合。
//w:词;c:该词在文章中出现次数; - 异常检测 。识别其特征是显著不同于其他数据的观测值。将该点称为”异常点“或”离散群点“。
eg: 信用卡欺诈检测。
相关会议期刊
会议:KDD、ICDM、SDM、PKDD、PAKDD…
期刊:
IEEE Transactions on Knowledge and Data Engineering
Data Mining and knowledge Discovery Intelligence Data Analysis