博主是学习了数据挖掘课后,结合教材和老师的课件,总结了这门课整体的一个知识点框架,还算比较详细,希望大家在学习数据挖掘的时候能够给大家一个参考,以及知识点的查漏补缺。有遗漏和错误的地方多谢指正。
参考教材:《数据挖掘:概念与技术》,(美)Jiawei Han / (加)Micheline Kamber / (加)Jian Pei,机械工业出版社
课件暂时不能分享,毕竟没有经过老师同意
标注 * 星号的为重点内容
框架目录
- 第0章 课程概述
- 第1章 引论
- 第2章 了解数据
- 第3章 数据预处理
- 第4章 挖掘频繁模式、关联和相关性:基本概念和方法
- 第5章 分类:基本概念
- 第6章 聚类分析:基本概念和方法
- 第7章 深度学习
- 框架图片(忽略后面的页码):
第0章 课程概述
0.1 引言
0.2 数据挖掘概念及必要性
0.3 数据挖掘的主要任务
0.4 案列分析
第1章 引论
1.1 为什么进行数据
1.2 什么是数据挖掘
* 数据挖掘过程/步骤
1.3 可以挖掘什么类型的数据
1.4 可以挖掘什么类型的模式
1.5 使用什么技术
1.6 面向什么类型的应用
1.7 数据挖掘的主要问题
1.8 小结
第2章 了解数据
2.1 数据对象和属性类型
* 数据集合的类型
结构数据的重要特征
* 属性类型
2.2 数据的基本统计描述
度量数据的中心趋势
度量数据散布
* 盒图
直方图
分位数图
* Q-Q 图
散布图
2.3 数据可视化
几何投影可视化技术
2.4 测量数据相似性和相异性
相似性和相异性
标称属性的邻近度量
* 二进制属性的邻近度量(Jaccard/Tanimoto系数)
二进制属性的相异度量
* 闵可夫斯基距离(曼哈顿、欧式、上确界距离)
有序变量
混合型属性
* 余弦相似性
2.5 小结
第3章 数据预处理
3.1 数据预处理:概述
数据质量的评价指标
数据预处理的主要任务
3.2 数据清理
处理缺失数据
噪声数据
* 分箱
数据清理作为一个过程
3.3 数据集成
冗余数据处理
* 相关系数(皮尔逊相关系数)
协方差
* 卡方检验
3.4 数据规约
维规约
* 小波变换、傅里叶变换
* 主成分分析PCA
* 特征选择、决策树规约
数量规约
回归分析
直方图
聚类、抽样
数据压缩
3.5 数据变换和数据离散化
数据变换
规范化方法
* 最小-最大规范化(Min-Max)
* Z-分数规范化(Z-Score)
小数定标
离散化和概念分层
* Chi-Merge 分箱离散化
自然划分离散化
概念分层
3.6 小结
第4章 挖掘频繁模式、关联和相关性:基本概念和方法
4.1 基本概念
什么是频繁项集分析
为什么频繁模式重要
关联规则基本术语和定义
* 闭频繁项集、极大频繁项集
4.2 频繁项集挖掘方法
* Apriori 算法
步骤
关联规则两条性质
伪代码
提高 Apriori 算法的效率
* FP-Growth 算法(挖掘频繁项集的模式增长方法)
构造FP树
构造条件模式基
构造条件FP树
其他相关方法
用垂直数据格式挖掘频繁项集
挖掘闭模式、极大模式
4.3 模式评估方法
* 提升度 lift
* 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量
例子:各种度量的比较
4.4 小结
第5章 分类:基本概念
5.1 基本概念
有监督、无监督、分类、预测
分类的过程
5.2 * 决策树归纳
例子、伪代码
算法步骤
属性选择的度量(信息增益、增益率、Gini指标)
* 信息增益(ID3/C4.5算法)
* 增益率(C4.5算法)
* 基尼指数 Gini
三种比较
其他度量指标
过拟合与剪枝
决策树归纳的增强
大型数据库分类
RainForest(雨林)算法
BOAT(自助乐观)算法
5.3 * 贝叶斯分类方法
贝叶斯理论、概念
朴素贝叶斯(NB)分类
例子
* 避免零概率(拉布拉斯校准)
优缺点
5.4 基于规则的分类
IF-THEN 规则分类
从决策树提取规则
* 顺序覆盖算法(FOIL)
基本步骤
规则产生
伪代码、学习步骤
规则质量度量与剪枝
5.5 模型评估与选择
评价指标
* 混淆矩阵(Confusion Matrix)
* 准确度(Accuracy)、误差率(Error Rate)、敏感度(Sensitivity)、特效性(Specificity)
* 精度(Precision)、召回率(Recall)、F度量(F-Score)
评测分类器的正确率(交叉验证)
自助法
* 估计置信区间
* 模型选择:ROC曲线图
5.6 提高分类准确率的技术
组合方法
装袋(Bagging)
提升(Boosting)
Adaboost 算法
随机森林(Random Forest)算法
5.7 小结
第6章 聚类分析:基本概念和方法
6.1 聚类分析
概念 、应用
主要步骤
要求
聚类的主要方法
6.2 划分方法
概念
* k-平均(K-Means)算法
* k-中心点(PAM)算法
6.3 层次方法
概念
AGNES、DIANA算法
* 类间距离度量(最小/大距离、平均值距离、平均距离)
缺点
* BIRCH 算法
CF 树
* Chameleon(变色龙)算法
概率层次聚类
6.4 基于密度的方法
概念、特点、术语
* DBSCAN 算法
* OPTICS 算法
Denclue 算法
6.5 基于网格的方法
概念
* STING(统计信息网格)算法
* CLIQUE 算法
6.6 聚类评估
估计聚类趋势(霍普金斯统计量)
确定聚类类别数目
聚类质量评估
外在方法
内在方法(轮廓系数)
6.7 小结
第7章 深度学习
7.1 神经网络基础
概述
神经元模型
*激活函数
阶跃函数、* Sigmoid 函数
梯度弥散(梯度消失)
Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数
函数选择建议
神经网络结构(输入层、隐藏层、输出层)
代价函数
二次代价函数(回归)
* 交叉熵代价函数(相对熵、交叉熵)
梯度下降
* 反向传播算法(BP)
神经网络训练方法
* 过拟合、欠拟合
* 过拟合解决方法(早停、正则化、Dropout、数据增强)
数据增强(增加训练集样本数)
7.2 深度学习概念及模型
深度学习概念
概念
发展历程
深度学习和机器学习区别
应用(CV、语音识别、NLP)
* 卷积神经网络 CNN
原理
* 卷积
Ø 注意运算符号是卷积还是乘号:乘号在 CNN 中直接对应相乘相加;卷积号是颠倒相乘相加
池化 Pooling
局部连接
权值共享
网络结构
AlphaGo(阿法狗)
生成对抗网络 GAN
深度强化学习 DRL
7.3 深度学习框架与实例
概念
Tensorflow
Keras
Pytorch
Caffe
Paddlepaddle(百度飞桨)
案例:mnist 手写数字识别
=======================================