第一章绪论

1、数据挖掘产生的背景？驱动力是什么？

DRIP ( Data Rich， Information Poor)

背景：随着数据收集、存储、计算技术的迅猛发展，数据获取并不困难，数据也并不太昂贵，我们可以累积海量的大数据。

驱动力：尽可能随时随地收集的数据；我们希望收集到的数据无论对于收集的目的还是对于没有预想到的目的都有价值。

2、大数据的特点是什么？

3V：

Variety

非结构化数据。

Velocity

对于大数据挖掘的一些算法要求能够实时快速的处理。

Volume

存储容量： GB、TB、 PB、 EB、ZB。

3、什么是数据挖掘？数据- >知识(规律)

数据挖掘是从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的、和可能有用的模式或知识。

数据挖掘并非全自动的过程，在各个环节都可能需要人为参与。

数据挖掘的替换词：知识发现(KDD)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。

4、数据挖掘一般流程是什么？以及业界数据整合&分析的过程是什么？举例数据挖掘在各个领域的应用

数据挖掘的一般流程：定义问题、数据获取、数据预处理、数据分析与建模、理解/ 评价模型、部署/实施模型。

业界数据整合&分析的过程：

通常数据是存放在文本文件、 CRM系统、 ERP系统等不同的数据源当中，对不同数据源ETL 提取、转换、和装载。然后装在数据仓库当中，再去做各种各样的分析。

数据挖掘在各个领域的应用举例：

如公共安全、个性化医疗、城市规划、精准销售、运动。

5、数据挖掘的四大主要任务？他们的区别是什么？

四大主要任务：聚类分析、关联分析、分类预测、异常检测。

分类：根据一组对象和其类标签，构建分类模型，并用于预测另一组对象的类别标签。分类是一种有监督的数据挖掘任务。

聚类：将一组样本分配到子集(簇)，这样同一簇中的样本在某种意义上是相似的。最大化簇间距离，最小化簇内距离。聚类通常作为其他数据挖掘或建模的前奏。聚类是一种无监督的数据挖掘任务。

关联分析：给定的一组记录，其中每个记录都包含来自给定集合的若干项，关联规则是：生成依赖关系(规则)，通过规则预测某一项是否发生。

异常检测：发现与正常行为的显著偏差。方法：利用聚类、分类分析的结果。

6、结合分类，介绍数据挖掘中常见的概念：

分类边界?

二维：分界线；三维：分界面。

过拟合？

分类过程中建立的一个平滑的分界面。

混淆矩阵中 TPR=TP/(TP+FN) TNR=TN/(TN+FP) Accuracy=(TP+TN)/(P+N)

假设是2分类问题，一类叫正类(positive)，一类叫负类(negative)；混淆矩阵把分类的各种情况都把列出来；

TPR 是指正样本中的正确率； TNR 是指负样本中的正确率。

ROC曲线/AUC评价标准?

在ROC曲线中，横轴是假正例率(FPR)，纵轴是真正例率(TPR)。对某个分类器而言，我们可以根据其在测试样本上的表现得到一个TPR和FPR点对。这样，此分类器就可以映射成ROC平面上的一个点。

AUC：是一种用来度量分类模型好坏的一个标准。 AUC的值就是处于ROC 曲线下方的那部分面积的大小，介于0.5到1.0之间，较大的AUC代表了较好的性能。

第二章数据

1、介绍数据对象与数据属性：

数据：是数据对象的集合。

数据对象

用一组刻画其基本性质的属性描述。

数据对象也称为记录、点、向量、模式、事件、样本、观测、实体。

数据属性

是对象的性质或者特征。

数据属性也称为变量、特性、字段、特征、维度。

属性类型

离散属性和连续属性；

非对称属性

只重视少部分非零属性值才有意义，称该属性为非对称属性。

2、介绍数据集性质与类型：数据集的一般特性

① 维数：是数据集中属性的数目。分析高维数据时容易陷入维度灾难。数据预处理的一个重要动机就是减少维度，即维归约。

② 稀疏性：有的数据集如非对称属性的数据集，非零项还不到1%, 这样可以仅存储非零值，将大大减少计算时间和存储空间。有算法专门针对稀疏数据(稀疏矩阵)进行处理。

③ 分辨率：不同采集频率可以获得不同分辨率的数据。例如：几米分辨率的数据，地球很不平坦，但若数十公里分辨率的数据，却相对平坦。数据模式依赖于分辨率。分辨率太小，模式可能不出现。分辨率太大，模式可能看不出。

数据集的类型

(记录、图结构、序列)- >数据矩阵

记录数据(数据矩阵、交易数据、文本数据)

图数据(万维网、分子结构)

序列数据(时间序列、空间数据、图像数据、视频数据)

数据集的常用标准形式是什么？

数据矩阵

什么是词袋模型？

每个文档表达为词向量；每个词为向量的一个分量；

每个分量的值为该词在文档中出现的次数。

什么是维度灾难？

当增加更多特征维度时，模型的效果反而下降的现象。

如何解释维度灾难？

随着维数增加，数据在特征空间中越来越稀疏，导致过拟合学习了噪声和异常值。

如何避免维度灾难？

① 训练数据的量：理论上说，训练样本无限多，维度灾难就不会发生。也就是说，随着维度增加，训练样本的数量要求随指数增加。

② 模型的类型：非线性决策边界的分类器，如神经网络、 KNN，决策树，分类效果好，但是泛化能力差。因此，使用这些分类器时维度不能过高，而是需要增加数据量。而如果是泛化能力好的分类器，如贝叶斯、线性分类器，可以使用更多的特征。

3、数据质量：

数据质量差会对许多数据处理工作产生负面影响

常见数据质量问题: 噪声、异常值、重复值、不一致值、不均衡数据。

4、数据相似性与相异性度量：

相似性度量

度量数据对象的相似程度；越相似，值越高；值一般落在 [0,1]。

方法：二元向量相似度 ( SMC、Jaccard系数)、余弦相似度 (计算题) 、相关性：皮尔森相关系数(计算题)、卡方检验、

相异性度量

度量数据对象的相异程度；越不相似，值越高；值一般落在 [0,+∞)，上界不定。方法： Euclidean 距离、 Minkowski 距离、马氏聚类

第三章数据预处理

为什么需要数据预处理？

数据预处理是数据挖掘中最为艰巨的任务，

真实的数据有噪声、不完整、数据不一致、冗余、其它(数据类型转换、不均衡数据)。

数据预处理的主要任务？

① 数据清理：填写缺失的值，光滑噪声数据，识别、删除离群点，解决不一致性

② 数据集成：集成多个数据库或文件

③ 数据归约：维规约、数量规约

④ 数据变换和离散化：数据类型转换、标准化

数据清洗

无关数据、冗余属性、缺失数据、异常数据

缺失数据处理和填补方法

忽略、手动填补、模型填补

异常数据：噪声&异常值(测量变量中的随机错误(Noise)或偏差(Outlier)) 如何平滑异常值？

分箱、回归、聚类

类型转换

属性类型

连续型、离散型、序数型、标称型、字符串型等

离散化

离散化是将连续属性转换为有序属性的过程

离散化主要是决定选择多少个分割点以及确定分割点的位置

根据是否使用类信息，离散化方法可分为

无监督离散化：等宽离散化、等频率离散化、 k-均值离散化

有监督离散化

采样

下采样、上采样：相邻点之间的区域随机生成，优点像插值。

边缘采样：数据集非常大，边缘点最有价值；可以节省大量计算资源。

什么是不平衡数据集？

不同类别中样本数比率不平衡，但这些类别中的样本量都是足够多的；存在某一类或多个类样本量较少(这种情况只能尽量补充该类的样本)

不平衡数据集会产生什么弊端？

会使结果不准确，很高的准确率可能没有意义。

如何规避不平衡数据集的弊端？

可以通过抽样来调整类的分布，也可以定义新的准确率的评价标注

数据规范化(标准化)

有明确上下界： Min-max 标准化

最大-最小是有明确的上下界的

无上下界： Z-score标准化

有些数据是没有明显的上下界的，数据服从高斯分布，是可以无限延伸的

特征选择与提取

如何判断属性的好坏呢？

定性

类别柱状图(离散型属性)、类别分布图(连续型属性)

定量

熵：信息量的数学期望，在信息论中衡量一个系统的不确定性。 (越小越好)

信息增益：当知道额外属性时，对整个系统的不确定性降低了多少。 (越大越好)

思考：连续型属性如何求熵、信息增益呢？

张小潘的博客

特征子集选择的方法有那些？

① 穷举

② 分支定界

③ 贪婪算法：最优的K个单独的属性、顺序正向选择、顺序逆向选择

④ 优化算法：模拟退火、遗传算法

两个具有代表性的特征提取方法(降维方法)：

无监督的PCA

主要思想？

PCA旨在找到数据中的主成分，并利用这些主成分表征原始数据，从而达到降维的目的。

如何计算？

两个具有代表性的特征提取方法(降维方法)：

无监督的PCA

PCA的优点

① 仅仅需要以方差衡量信息量，不受数据集以外的因素影响

② 各主成分之间正交，可消除原始数据成分间的相互影响的因素

③ 计算方法简单，主要运算是特征值分解，易于实现

PCA的缺点

① 主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强

② 方差小的非主成分也可能含有对样本差异的重要信息，因此降维丢弃可能对后续数据处理有影响

③ PCA属于有损压缩

两个具有代表性的特征提取方法(降维方法)：

有监督的LDA

主要思想？

线性判别分析是一种基于有监督学习的降维方式, 将数据集在低维度的空间进行投影，要使得投影后的同类别的数据点间的距离尽可能的靠近，而不同类别间的数据点的距离尽可能的远

如何计算？

两个具有代表性的特征提取方法(降维方法)：

有监督的LDA

LDA的优点

① 在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识

② LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优

LDA的缺点

① LDA不适合对非高斯分布样本进行降维， PCA也有这个问题

② LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。

③ LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好

④ LDA可能过度拟合数据

两个具有代表性的特征提取方法(降维方法)：

无监督的PCA与有监督的LDA

相同点：

① PCA和LDA都是经典的降维算法；

② PCA和LDA都假设数据是符合高斯分布的；

③ PCA和LDA都利用了矩阵特征分解的思想。

不同点：

① PCA是无监督(训练样本无标签)的， LDA是有监督(训练样本有标签)的；

② PCA是去掉原始数据冗余的维度， LDA是选择一个最佳的投影方向，使得投影后相同类别的数据分布紧凑，不同类别的数据尽量相互远离。

③ LDA最多可以降到k-1维(k是训练样本的类别数量， k-1是因为最后一维的均值可以由前面的k-1维的均值表示)；

④ LDA可能会过拟合数据。

第四章 K-最近邻

4.1 分类概述

从数据中推导函数的技术，一种有监督的方法

基本方法：最近邻、决策树、贝叶斯、支持向量机、神经网络

集成方法： Boosting、随机森林

4.2 K-最近邻

原理：类比学习

超参数有那些？

不同的距离函数： L1范数， L2范数；点积等

如何调节超参数？

将训练集分为更小的训练集和一个验证集(伪测试集)

交叉验证？

充分利用训练集，将整个训练集划分为若干等分，将其中每一等份都作为一次验证集，剩下等分作为训练集，这样其实就实现了超参数在整个训练集上的验证，所以获得的超参数也更为鲁棒

交叉验证对于小的数据集应用会更为普遍一些，深度学习一般都不采用这种交叉验证的方式。

4.3 决策树

决策树的特点

自顶向下的树状结构，

决策树的优点

① 可以很容易地从构建的树中提取出来；

② 有一个清晰的结构，模仿了人类去做思维思考的流程，先考虑什么因素，再考虑什么因素

决策树的规则

一个数据集, 可能生成很多颗树， ID3要造最短的树。

ID3生成树的基本流程？

① 从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征。

② 由该特征的不同取值建立子节点，再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止；

③ 最后得到一个决策树。

如何通过剪枝防止过拟合？

① 早一些停止树生长。

② 允许树过度拟合数据，然后对树进行后期修剪。

属性选择的标准是什么？

对根节点计算所有特征的信息增益，选择信息增益最大的特征作为最开始的节点特征。

ID3框架

ID3(Examples, Target_attribute, Attributes)

创建树的根节点Root

如果样本属同一类C,返回该根结点，创建单节点树，并以C作为类。

如果Attributes为空，那么返回根节点，其类标号为样本集中的多数类。 A <Attributes中分类样本能力最好的属性 (最大信息增益)

以A作为节点分类

对于A的每个可能值 vi

在节点下加一个新的分支对应测试 A= vi.

令样本vi为样本集中中满足A属性值为vi的子集.

如果 Examples (vi) 为空

在这个新分支下加一个叶子节点，节点的标号为样本中的多数类.

否则在新分支下加一个子树

ID3(Examples(vi), Target_attribute, Attributes-{ A}) 返回根节点 Root

第四章朴素贝叶斯

网球的例子

Given :

Predict :

PlayTennis (yes or no)

Bayes Solution :

P(PlayTennis = yes)=9 / 14

P(PlayTennis =no)=5 / 14

P(Wind =strong | PlayTennis = yes)=3 / 9

P(Wind =strong | PlayTennis =no)=3 / 5

...

The conclusion is not to play tennis with probability : =0.795

第四章 SVM

SVM的提出实际上是尝试解决线性分类器的什么问题？

泛化能力低的问题，找到泛化能力最强的线性分类器

支持向量机解的稀疏性：

训练完成后, 大部分的训练样本都不需保留, 最终模型仅与支持向量有关.

SVM为什么引入核技巧？核技巧有什么优点？

K(xi,xj) = φ(xi).φ(xj)

既可以利用高维空间比较好分优点，又可以避免高维

带来的计算量大的问题！

SVM三大宝贝

间隔、对偶、核技巧

Hard-margin SVM(最大间隔分类器)

找一组支持向量，来最大化间隔，从而确定更为无偏的超平面。

常用的核函数有那些？

第四章神经网络

4.6 神经网络

基本的感知机 (神经元) 的结构？

对输入神经元的值进行线性加权后，输入到激励函数，再通过输出神经元输出。

感知机本质是实现什么功能？

本质实现的是线性分类器，即线性超平面。

梯度下降的基本思想是什么？

沿着梯度的方向，一步步向下去寻找使得损失函数最小值得过程。

常用的梯度下降算法有哪些？

BGD、 SGD、 MBGD、Adam、 Momentum等

什么是损失函数？

何为梯度？

为什么要下降？

什么是学习率？

多层感知机

反向传播算法 ( BP算法)

第四章分类方法总结

K-最近邻

类比学习，容易过拟合

决策树

自顶向下的树状结构，可以很容易地从构建的树中提取规则。 ID3、 C4.5、随机森林

朴素贝叶斯分类器

基于贝叶斯定理，求当前属性下的最大后验概率，计算过程通过条件独立进行化解

支持向量机

间隔、对偶、核函数

神经网络

“黑盒子”、自学习自适应性、大数据、计算存贮并行性，应用广 (分类聚类、优化、计算视觉等)

总结分类方法的特点？

有监督的方法，从有标签的数据中推导函数的技术

第五章聚类

5.1 聚类概述

1、什么是聚类？与分类的区别是？

寻找一组对象，使一组中的对象彼此相似(或相关)，与其他组中的对象不同(或无关)

无监督学习：没有标签、数据驱动去生成不同的簇

一般操作：簇内距离最小化、簇间距离最大化

2、聚类分析的基本步骤是什么？

3、聚类的评价标准

假设数据是球型分布，‘紧密’ 的簇有较低SSE值， ‘稀松’ 的簇有较高 SSE值。

5.2 K-Means

1、 K-Means 的基本流程？

① 确定 K 的值。

② 随机生成 K 个聚类中心。

③ 每个数据点都被分配到其最近的中心。

④ 使用每个簇的平均值更新每个中心。

⑤ 重复③到④这个过程，直到没有新的分配点。

⑥ 返回K个中心点。

K-Means优点

① 简单，适用于规则不相交的簇，如：球型。

② 收敛速度相对较快。 (5-6步)

③ 相对有效，算法复杂度： O(t·k·n)

t: 迭代次数; k: 中心点的个数; n: 样本点的数目

K-Means缺点

① 对噪声点和奇异点很敏感

数据点的均值

数据预处理：归一化、标准化、异常值检测 …

② 不适合的聚类：

大小、密度、非球型

核-Kmeans

③ 初始质心设置不当，可能会收敛到局部最优

尝试不同的初始质心，二分K-Means…

④ 需要提前决定K的值

高维无法预先判断K值

手肘法、 Gap statistic方法、二分K-Means…

K-means 作业

请用k-均值算法把表中S的8个样本数据聚为3个簇，并给出每个簇的平均值点，假设初始迭代时选择X1、X4和X7作为初始簇中心点。

第五章聚类方法总结

划分型聚类： K-Means

层次型聚类：凝聚型和分裂型

基本思想：产生一个分层树的嵌套簇集，无需设定任何特定的簇数目

基本流程：计算簇之间的邻近度矩阵--结合最相近的两个簇，直到只有一个簇为止

主要方法：不同的定义簇间距离方法，如： Min 、 Max 、 Group Average、 Distance Between Centroids

基于密度的聚类： DBSCAN

有点像人类的视觉

优点：无需预先设置K值、生成任意形状的簇、抗噪音能力强。

缺点：易受超参数影响。

第六章关联规则

6.1 基本概念

1、什么是频繁项集？评价指标是什么？

项集是包含0个或多个项的集合，形如 {Milk, Bread, Diaper}

频繁项集满足最小支持度阈值的所有项集.

支持度：项集的频率

2、什么是关联规则？评价指标是什么？

关联规则是形如 X - > Y的表达式, 其中 X Y 是不相交的项集.

强规则是一个频繁且置信度高于Φ的规则.

支持度：规则X - > Y的频率

置信度：规则X - > Y的强度

3、挖掘关联规则的基本思路？

频繁项集产生>从频繁项集中产生强规则

6.2 Apriori 算法总结

A Priori：当项集越来越大时，支持度单调不增的

频繁项集的产生：

先验：一个项集是频繁的，那么它的所有子集都是频繁的。任何不频繁项集的

超集都不能是频繁的。

一个逐层迭代算法。即从频繁1-项集到最长的频繁项集。在每次迭代，新的候

选项集由前一次迭代发现的频繁项集产生，然后对每个候选的支持度进行计数，满足最小支持度阈值的候选项集为新的频繁项集。

关联规则在频繁项集中产生：

先验：如果规则X →Y-X不满足置信度阈值，则形如X‘→Y-X’的规则一定也不满

足置信度阈值，其中X‘是X的子集。

利用频繁项集构造出满足用户最小置信度的规则，在构造过程中依据规则先验

的原理进剪枝。

频繁项集的产生是Apriori算法的核心，占整个算法工作量的大部分。

6.3 频繁项集的紧凑表示：

极大频繁项集(Maximal Frequent Itemset)

闭频繁项集(Closed Frequent Itemset)

【数据挖掘】学习笔记、重难点总结

第一章绪论

第二章数据

第三章数据预处理

第四章 K-最近邻

第四章朴素贝叶斯

第四章 SVM

第四章神经网络

第四章分类方法总结

第五章聚类

第五章聚类方法总结

第六章关联规则

猜你喜欢

【数据挖掘】学习笔记、重难点总结

第一章 绪论

第二章 数据

第三章 数据预处理

第四章 K-最近邻

第四章 朴素贝叶斯

第四章 SVM

第四章 神经网络

第四章 分类方法总结

第五章 聚类

第五章 聚类方法总结

第六章 关联规则

猜你喜欢

第一章绪论

第二章数据

第三章数据预处理

第四章朴素贝叶斯

第四章神经网络

第四章分类方法总结

第五章聚类

第五章聚类方法总结

第六章关联规则