数据分析与数据挖掘框架(一) —— 数据分析与挖掘总框架

所谓框架,或者说方法论,就是指整个数据分析与数据挖掘项目的过程。不管项目领域是金融、电信、医学或者交通,其实只要项目中涵盖数据分析或数据挖掘的应用,项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法,就变成了数据分析与挖掘的框架。

在真正开始数据采集、抽样、清洗,甚至建模之前,一个清晰的框架等同于写作前的草稿。它是一个项目的骨架,能够为数据分析与挖掘人员进行细节的实施工作提供引导,并且能及时明确自己的工作在整个项目流程中的位置。现在流行的各种深度学习的算法,或者前沿的分析工具,都是框架中的某个组成部分。

在数据分析领域中,较为成熟的方法论有CRISP-DM,以及在此之上进行了拓展与丰富的SEMMA。通过总结这两个方法论,再加入一些实际项目工作经验后,我将一个数据分析与挖掘类项目的步骤定义为七个步骤,并用思维导图将上面的7个步骤展示出来。

在实际生活与工作中,不一定每个步骤都一定会被用到。但是一般而言,数据分析与挖掘的项目会经历下面的几个过程:

  1. 需求调研 —— 理解项目目标,明确业务需求点,把握项目的who,when,where,what,how。
  2. 框架定位 —— 涉及的行业领域是什么,数据挖掘的对象处于业务链中的什么位置,用到的数据如何在数据库模型中定位
  3. 数据准备 —— 了解数据库模型,是否需要外部数据源或增加数据接口,现有数据源是否能满足分析的需要
  4. 数据挖掘 —— 包括数据的采样、清洗、探索、建模、评测、封装
  5. 上线部署 —— 数据模型或者前端部署结果
  6. 测试评审 —— 项目的SIT以及UAT测试
  7. 监控测评 —— 模型的日常运作监控,异常报警等。

上面的步骤用思维导图的形式表现出来则如下图所示。



上图对框架中几个较为关键的步骤进行了细化与拆解。实际应用中,框架中每个步骤都容纳许多细节与知识点,我会在以后的文章中慢慢更新,也希望大家能够提出建议。




猜你喜欢

转载自blog.csdn.net/Orange_Spotty_Cat/article/details/80252579