06 | 数据分析要掌握的基本概念

  • Apriori 算法
  • 商业智能 BI(Business Intelligence)、数据仓库 DW(Data Warehouse)、数据挖掘 DM(Data Mining) 三者之间的关系:
  1. 百货商店利用数据预测用户的购物行为属于商业智能,他们积累的顾客的消费行为会存储在数据仓库中,通过对个体进行消费行为分析总结出来的规律属于数据挖掘。

  2. 元数据:描述其他数据的数据,比如书本上的书名等。可以很方便的应用于数据仓库。

  3. 数据元:就是最小数据单元。比如一套图书的属性。

  • 数据挖掘的流程(Knowledge Discovery in Database(KDD)):

  1. 分类:通过训练数据集得到一个分类模型,然后用这个模型对其他数据进行分类。

  2. 聚类:将数据自动聚类到几个类别,聚到一起的相识度大。

  3. 预测:通过当前和历史数据预测未来趋势,可以更好的帮助我们识别机遇和风险。

  4. 关联分析:发现数据中的关联分析,被广泛的应用于购物篮分析,或者事物数据分析中。

  • 数据预处理:
  1. 数据清洗:去重复数据,去噪以及填补缺失值。
  2. 数据集成:将多个数据源的数据存放到一个统一的数据存储中。
  3. 数据变换:将数据转换成为适当的数据挖掘的形式。比如归一化
  • 数据后处理:将模型预测的结果进一步处理后再导出。
  •  

猜你喜欢

转载自blog.csdn.net/qq_36533552/article/details/87877558
06