《数据挖掘》学习框架

博主是学习了数据挖掘课后,结合教材和老师的课件,总结了这门课整体的一个知识点框架,还算比较详细,希望大家在学习数据挖掘的时候能够给大家一个参考,以及知识点的查漏补缺。有遗漏和错误的地方多谢指正。

参考教材:《数据挖掘:概念与技术》,(美)Jiawei Han / (加)Micheline Kamber / (加)Jian Pei,机械工业出版社

课件暂时不能分享,毕竟没有经过老师同意

标注 * 星号的为重点内容

框架目录

第0章 课程概述

0.1 引言

0.2 数据挖掘概念及必要性

0.3 数据挖掘的主要任务

0.4 案列分析

第1章 引论

1.1 为什么进行数据

1.2 什么是数据挖掘

* 数据挖掘过程/步骤

1.3 可以挖掘什么类型的数据

1.4 可以挖掘什么类型的模式

1.5 使用什么技术

1.6 面向什么类型的应用

1.7 数据挖掘的主要问题

1.8 小结

第2章 了解数据

2.1 数据对象和属性类型

* 数据集合的类型

结构数据的重要特征

* 属性类型

2.2 数据的基本统计描述

度量数据的中心趋势

度量数据散布

* 盒图

直方图

分位数图

* Q-Q 图

散布图

2.3 数据可视化

几何投影可视化技术

2.4 测量数据相似性和相异性

相似性和相异性

标称属性的邻近度量

* 二进制属性的邻近度量(Jaccard/Tanimoto系数)

二进制属性的相异度量

* 闵可夫斯基距离(曼哈顿、欧式、上确界距离)

有序变量

混合型属性

* 余弦相似性

2.5 小结

第3章 数据预处理

3.1 数据预处理:概述

数据质量的评价指标

数据预处理的主要任务

3.2 数据清理

处理缺失数据

噪声数据

* 分箱

数据清理作为一个过程

3.3 数据集成

冗余数据处理

* 相关系数(皮尔逊相关系数)

协方差

* 卡方检验

3.4 数据规约

维规约

* 小波变换、傅里叶变换

* 主成分分析PCA

* 特征选择、决策树规约

数量规约

回归分析

直方图

聚类、抽样

数据压缩

3.5 数据变换和数据离散化

数据变换

规范化方法

* 最小-最大规范化(Min-Max)

* Z-分数规范化(Z-Score)

小数定标

离散化和概念分层

* Chi-Merge 分箱离散化

自然划分离散化

概念分层

3.6 小结

第4章 挖掘频繁模式、关联和相关性:基本概念和方法

4.1 基本概念

什么是频繁项集分析

为什么频繁模式重要

关联规则基本术语和定义

* 闭频繁项集、极大频繁项集

4.2 频繁项集挖掘方法

* Apriori 算法

步骤

关联规则两条性质

伪代码

提高 Apriori 算法的效率

* FP-Growth 算法(挖掘频繁项集的模式增长方法)

构造FP树

构造条件模式基

构造条件FP树

其他相关方法

用垂直数据格式挖掘频繁项集

挖掘闭模式、极大模式

4.3 模式评估方法

* 提升度 lift

* 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量

例子:各种度量的比较

4.4 小结

第5章 分类:基本概念

5.1 基本概念

有监督、无监督、分类、预测

分类的过程

5.2 * 决策树归纳

例子、伪代码

算法步骤

属性选择的度量(信息增益、增益率、Gini指标)

* 信息增益(ID3/C4.5算法)

* 增益率(C4.5算法)

* 基尼指数 Gini

三种比较

其他度量指标

过拟合与剪枝

决策树归纳的增强

大型数据库分类

RainForest(雨林)算法

BOAT(自助乐观)算法

5.3 * 贝叶斯分类方法

贝叶斯理论、概念

朴素贝叶斯(NB)分类

例子

* 避免零概率(拉布拉斯校准)

优缺点

5.4 基于规则的分类

IF-THEN 规则分类

从决策树提取规则

* 顺序覆盖算法(FOIL)

基本步骤

规则产生

伪代码、学习步骤

规则质量度量与剪枝

5.5 模型评估与选择

评价指标

* 混淆矩阵(Confusion Matrix)

* 准确度(Accuracy)、误差率(Error Rate)、敏感度(Sensitivity)、特效性(Specificity)

* 精度(Precision)、召回率(Recall)、F度量(F-Score)

评测分类器的正确率(交叉验证)

自助法

* 估计置信区间

* 模型选择:ROC曲线图

5.6 提高分类准确率的技术

	组合方法 
		装袋(Bagging) 
		提升(Boosting) 
			Adaboost 算法 
			随机森林(Random Forest)算法 

5.7 小结

第6章 聚类分析:基本概念和方法

6.1 聚类分析

概念 、应用

主要步骤

要求

聚类的主要方法

6.2 划分方法

概念

* k-平均(K-Means)算法

* k-中心点(PAM)算法

6.3 层次方法

概念

AGNES、DIANA算法

* 类间距离度量(最小/大距离、平均值距离、平均距离)

缺点

* BIRCH 算法

CF 树

* Chameleon(变色龙)算法

概率层次聚类

6.4 基于密度的方法

概念、特点、术语

* DBSCAN 算法

* OPTICS 算法

Denclue 算法

6.5 基于网格的方法

概念

* STING(统计信息网格)算法

* CLIQUE 算法

6.6 聚类评估

估计聚类趋势(霍普金斯统计量)

确定聚类类别数目

聚类质量评估

外在方法

内在方法(轮廓系数)

6.7 小结

第7章 深度学习

7.1 神经网络基础

概述

神经元模型

*激活函数

阶跃函数、* Sigmoid 函数

梯度弥散(梯度消失)

Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数

函数选择建议

神经网络结构(输入层、隐藏层、输出层)

代价函数

二次代价函数(回归)

* 交叉熵代价函数(相对熵、交叉熵)

梯度下降

* 反向传播算法(BP)

神经网络训练方法

* 过拟合、欠拟合

* 过拟合解决方法(早停、正则化、Dropout、数据增强)

数据增强(增加训练集样本数)

7.2 深度学习概念及模型

深度学习概念

概念

发展历程

深度学习和机器学习区别

应用(CV、语音识别、NLP)

* 卷积神经网络 CNN

原理

* 卷积

Ø 注意运算符号是卷积还是乘号:乘号在 CNN 中直接对应相乘相加;卷积号是颠倒相乘相加

池化 Pooling

局部连接

权值共享

网络结构

AlphaGo(阿法狗)

生成对抗网络 GAN

深度强化学习 DRL

7.3 深度学习框架与实例

概念

Tensorflow

Keras

Pytorch

Caffe

Paddlepaddle(百度飞桨)

案例:mnist 手写数字识别

=======================================

框架图片(忽略后面的页码):

框架图片

猜你喜欢

转载自blog.csdn.net/qq_43475750/article/details/123761242