博主是学习了数据挖掘课后，结合教材和老师的课件，总结了这门课整体的一个知识点框架，还算比较详细，希望大家在学习数据挖掘的时候能够给大家一个参考，以及知识点的查漏补缺。有遗漏和错误的地方多谢指正。

参考教材：《数据挖掘：概念与技术》，（美）Jiawei Han / （加）Micheline Kamber / （加）Jian Pei，机械工业出版社

课件暂时不能分享，毕竟没有经过老师同意

标注 * 星号的为重点内容

框架目录

第0章课程概述
第1章引论
第2章了解数据
第3章数据预处理
第4章挖掘频繁模式、关联和相关性：基本概念和方法
第5章分类：基本概念
第6章聚类分析：基本概念和方法
第7章深度学习
框架图片（忽略后面的页码）：

第0章课程概述

0.1 引言

0.2 数据挖掘概念及必要性

0.3 数据挖掘的主要任务

0.4 案列分析

第1章引论

1.1 为什么进行数据

1.2 什么是数据挖掘

* 数据挖掘过程/步骤

1.3 可以挖掘什么类型的数据

1.4 可以挖掘什么类型的模式

1.5 使用什么技术

1.6 面向什么类型的应用

1.7 数据挖掘的主要问题

1.8 小结

第2章了解数据

2.1 数据对象和属性类型

* 数据集合的类型

结构数据的重要特征

* 属性类型

2.2 数据的基本统计描述

度量数据的中心趋势

度量数据散布

* 盒图

直方图

分位数图

* Q-Q 图

散布图

2.3 数据可视化

几何投影可视化技术

2.4 测量数据相似性和相异性

相似性和相异性

标称属性的邻近度量

* 二进制属性的邻近度量（Jaccard/Tanimoto系数）

二进制属性的相异度量

* 闵可夫斯基距离（曼哈顿、欧式、上确界距离）

有序变量

混合型属性

* 余弦相似性

2.5 小结

第3章数据预处理

3.1 数据预处理：概述

数据质量的评价指标

数据预处理的主要任务

3.2 数据清理

处理缺失数据

噪声数据

* 分箱

数据清理作为一个过程

3.3 数据集成

冗余数据处理

* 相关系数（皮尔逊相关系数）

协方差

* 卡方检验

3.4 数据规约

维规约

* 小波变换、傅里叶变换

* 主成分分析PCA

* 特征选择、决策树规约

数量规约

回归分析

直方图

聚类、抽样

数据压缩

3.5 数据变换和数据离散化

数据变换

规范化方法

* 最小-最大规范化（Min-Max）

* Z-分数规范化（Z-Score）

小数定标

离散化和概念分层

* Chi-Merge 分箱离散化

自然划分离散化

概念分层

3.6 小结

第4章挖掘频繁模式、关联和相关性：基本概念和方法

4.1 基本概念

什么是频繁项集分析

为什么频繁模式重要

关联规则基本术语和定义

* 闭频繁项集、极大频繁项集

4.2 频繁项集挖掘方法

* Apriori 算法

步骤

关联规则两条性质

伪代码

提高 Apriori 算法的效率

* FP-Growth 算法（挖掘频繁项集的模式增长方法）

构造FP树

构造条件模式基

构造条件FP树

其他相关方法

用垂直数据格式挖掘频繁项集

挖掘闭模式、极大模式

4.3 模式评估方法

* 提升度 lift

* 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量

例子：各种度量的比较

4.4 小结

第5章分类：基本概念

5.1 基本概念

有监督、无监督、分类、预测

分类的过程

5.2 * 决策树归纳

例子、伪代码

算法步骤

属性选择的度量（信息增益、增益率、Gini指标）

* 信息增益（ID3/C4.5算法）

* 增益率（C4.5算法）

* 基尼指数 Gini

三种比较

其他度量指标

过拟合与剪枝

决策树归纳的增强

大型数据库分类

RainForest（雨林）算法

BOAT（自助乐观）算法

5.3 * 贝叶斯分类方法

贝叶斯理论、概念

朴素贝叶斯（NB）分类

例子

* 避免零概率（拉布拉斯校准）

优缺点

5.4 基于规则的分类

IF-THEN 规则分类

从决策树提取规则

* 顺序覆盖算法（FOIL）

基本步骤

规则产生

伪代码、学习步骤

规则质量度量与剪枝

5.5 模型评估与选择

评价指标

* 混淆矩阵（Confusion Matrix）

* 准确度（Accuracy）、误差率（Error Rate）、敏感度（Sensitivity）、特效性（Specificity）

* 精度（Precision）、召回率（Recall）、F度量（F-Score）

评测分类器的正确率（交叉验证）

自助法

* 估计置信区间

* 模型选择：ROC曲线图

5.6 提高分类准确率的技术

	组合方法 
		装袋（Bagging） 
		提升（Boosting） 
			Adaboost 算法 
			随机森林（Random Forest）算法

5.7 小结

第6章聚类分析：基本概念和方法

6.1 聚类分析

概念、应用

主要步骤

要求

聚类的主要方法

6.2 划分方法

概念

* k-平均（K-Means）算法

* k-中心点（PAM）算法

6.3 层次方法

概念

AGNES、DIANA算法

* 类间距离度量（最小/大距离、平均值距离、平均距离）

缺点

* BIRCH 算法

CF 树

* Chameleon（变色龙）算法

概率层次聚类

6.4 基于密度的方法

概念、特点、术语

* DBSCAN 算法

* OPTICS 算法

Denclue 算法

6.5 基于网格的方法

概念

* STING（统计信息网格）算法

* CLIQUE 算法

6.6 聚类评估

估计聚类趋势（霍普金斯统计量）

确定聚类类别数目

聚类质量评估

外在方法

内在方法（轮廓系数）

6.7 小结

第7章深度学习

7.1 神经网络基础

概述

神经元模型

*激活函数

阶跃函数、* Sigmoid 函数

梯度弥散（梯度消失）

Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数

函数选择建议

神经网络结构（输入层、隐藏层、输出层）

代价函数

二次代价函数（回归）

* 交叉熵代价函数（相对熵、交叉熵）

梯度下降

* 反向传播算法（BP）

神经网络训练方法

* 过拟合、欠拟合

* 过拟合解决方法（早停、正则化、Dropout、数据增强）

数据增强（增加训练集样本数）

7.2 深度学习概念及模型

深度学习概念

概念

发展历程

深度学习和机器学习区别

应用（CV、语音识别、NLP）

* 卷积神经网络 CNN

原理

* 卷积

Ø 注意运算符号是卷积还是乘号：乘号在 CNN 中直接对应相乘相加；卷积号是颠倒相乘相加

《数据挖掘》学习框架