Python数据挖掘——概况

一、碎碎念   

    之前一直因为懒,没有把学了的给整理下来,现在慢慢补起来。

二、数据挖掘概述

 1.什么是数据挖掘?

数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。

eg:啤酒与尿布、杜蕾斯与口红、杜蕾斯与红酒。==>达到增加商品销售的目的。

数据挖掘误区:
【实际】:
1.数据挖掘是人们处理商业问题的某些方法,我们通过它来获得更有价值的结果。
2.实际上,最好的数据挖掘工程师是熟悉和理解业务的人。

2.数据分析和数据挖掘的区别是什么?


3.模型与算法

3.1模型:(包含一种或多种算法)

    定量:数学公式(Y = a*X)

    定性:规则(年龄>30岁 and 收入>1万元)

3.2算法:实现数据挖掘技术、模型的具体步骤与方法。(结合编程解决)

三、数据挖掘常见问题


 3.1分类问题:


 3.1.1常见的分类方法:==>解决(用户流失、促销活动响应、用户信用评估)
1)决策树
2)贝叶斯
3)KNN
4)支持向量机
5)神经网络
6)逻辑回归

……

3.2聚类问题:
聚类的目标事先未确定。==>物以类聚的原理,将类似的事物归类的方法。


3.2.1常见聚类算法:==>解决(目标市场细分、现有客户细分)
1)划分聚类
2)层次聚类
3)密度聚类
4)网格聚类

5)基于模型聚类

……

3.3关联分析:(购物篮分析)



3.3.1关联常见算法:==>解决(哪些商品同时购买几率高、如何提高商品销售和交叉销售)
1)Aprior算法
2)Carma算法

3)序列算法

3.4预测分析:


3.4.1预测常见方法==>(未来气候、GDP增长、收入用户数预测、……)
1)简单线性回归分析
2)多重线性回归分析
3)时间序列

……

四、数据挖掘流程

CRISP-DM数据挖掘方法论:(循环探索过程)

 4.1阶段一:商业理解(了解项目要求和最终目的)
1)确定商业目标
2)确定挖掘目标

3)制定项目方案

4.2阶段二:数据理解

对企业内外部数据摸底,了解数据质量。


4.3阶段三:数据准备


4.4阶段四:模型构建

4.5阶段五:模型评估

4.6阶段六:模型部署


猜你喜欢

转载自blog.csdn.net/zhuoyue65/article/details/80294238