数据挖掘知识点总结

1.数据挖掘产生的背景?驱动力是什么？
四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣：
超大规模数据库的出现，如商业数据仓库和计算机自动收集数据记录手段的普及
先进的计算机技术，如更快和更大的计算能力和并行体系结构
对海量数据的快速访问，例如分布式数据存储系统的应用
统计方法在数据处理领域应用的不断深入
大量信息给人们带来方便的同时也带来一大堆问题：
信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。“数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。
数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。
驱动力：DRIP（Data Rich Information Poor）

2.大数据的特点是什么？
high-volume,high-veclocity,high-variety
高容量、高覆盖率、高品种

3.什么是数据挖掘？
数据->知识（规律）
数据挖掘是从数据中发现知识，从大量的数据中挖掘那些令人感兴趣的，有用的，隐含的、先前的、未知的、和可能有用的模式或知识。数据挖掘并非全自动的过程，在各个环节都可能需要人为参与。
数据挖掘可以从技术和商业两个层面上定义。从技术层面上看，数据挖掘就是从大量数据中，提取潜在有用的信息和知识的过程。从商业层面看，数据挖掘就是一种商业信息处理技术，其主要特点是对大量业务数据进行抽取、转换、分析和建模处理，从中提取辅助商业决策的关键性数据。

4、数据挖掘一般流程是什么？以及业界数据整合&分析的过程是什么？举例数据挖掘在各个领域的应用。
一般流程：
在这里插入图片描述
业界数据整合&分析的过程：

如医疗、交通、公共安全、个性化医疗、社交网络、精准消费。

5、数据挖掘的四大主要任务？他们的区别是什么？
1.分类预测：根据一组对象和其类标签，构建分类模型，并用于预测另一组对象的类别标签-有监督
2.聚类分析：聚类是将一组样本分配到子集（簇），这样同一簇中的样本在某种意义上是相似的-无监督
聚类和分类的区别在于聚类不依赖与预先定义的类标签-聚类是一种无监督的数据挖掘任务。
3.关联分析：给定的一组记录，其中每个记录都包含来自给定集合的若干项，关联规则是：生成依赖关系（规则），通过规则预测某一项是否发生。
4.异常检测：发现与正常行为的显著偏差，利用聚类、分类分析的结果
分类：

6、结合分类，介绍数据挖掘中常见的概念
分类边界：能够将问题空间的区域划分开来的超曲面
过拟合：模型复杂度高于实际问题，模型在训练集上表现很好，但在测试集上却表现很差。模型对训练集"死记硬背"（记住了不适用于测试集的训练集性质或特点），没有理解数据背后的规律，泛化能力差。
混淆矩阵：
在这里插入图片描述

TP(True Positive)：将正类预测为正类数，真实为0，预测也为0
FN(False Negative)：将正类预测为负类数，真实为0，预测为1
FP(False Positive)：将负类预测为正类数，真实为1，预测为0
TN(True Negative)：将负类预测为负类数，真实为1，预测也为1
代价敏感学习：代价敏感的学习方法是机器学习领域中的一种新方法，它主要考虑在分类中，当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中，“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同；

7、介绍数据对象与数据属性
属性类型：离散和连续，离散属性以符号、整数作为属性值，注意：二进制属性是离散属性，连续属性，以实数作为属性值，通常表示为浮点变量
非对称属性：只重视少部分非零属性值才有意义，称该属性为非对称属性。

8、什么是维度灾难？如何解释该现象？如何避免维度灾难？
维数是数据集中属性的数目，分析高维数据时容易陷入维度灾难。维度灾难是当增加更多特征维度时，模型的效果反而下降的现象。
解释现象：随着维数的增加，数据在特征空间中越来越稀疏。在高维特征空间中，容易学习到高维线性分类器，高维线性分类器降维变成了低维非线性分类器，分类器学习了噪声和异常值，方法泛化性低，过拟合。
如何避免维度灾难：训练数据的量：理论上说，训练样本无限多，维数灾难就不会发生。也就是说，随着维度增加，训练样本的数量要求随指数增加。模型的类型：非线性决策边界的分类器，如神经网络，KNN，决策树，分类效果好，但是泛化能力差，因此，使用这些分类器时数据维度不能太高，而是需要增加数据量。而如果是泛化能力好的分类器，如贝叶斯，线性分类器，可以使用更多的特征。

9、数据集的一般特性
维数：是数据集中属性的数目，分析高维数据时容易陷入维度灾难，数据预处理的一个重要动机就是减少维度，及时规约。
稀疏性：有的数据集如非对称属性的数据集，非零项还不到1%，这样可以仅存储非零值，将大大减少计算时间和存储空间。有算法专门针对稀疏数据（稀疏矩阵）进行处理。
分辨率：不同采集频率可以获得不同分辨率的数据，例如：几米分辨率的数据，地球很不平坦，但若数十公里分辨率的数据，却相对平坦。数据模式依赖于分辨率。分辨率太小，模式可能不出现。分辨率太大，模式可能看不出。

10.数据集的类型
记录数据（数据矩阵，交易数据，文本数据）
文本数据的编码，词袋模型：每个文档表达为词向量
每个词为向量的一个分量，每个分量的值为该词在文档中出现的次数。
图数据（万维网，分子结构）
序列数据（空间数据，时间序列，图像数据，视频数据）
数据集的常用标准形式是：数据矩阵

11、数据质量
数据质量差会对许多数据处理工作产生负面影响

扫描二维码关注公众号，回复： 14747950 查看本文章

12、常见数据质量问题
噪声：是无关的数据对象
异常值：是数据对象，但其特征与数据集中大多数对象有显著不同。
重复值：数据来源不同导致数据重复
不一致数据：同一属性的格式编码不一致
不均衡数据：值分类任务中不同类别的训练样例数目差别很大的情况。

13、数据相似性和相异性的度量
相似性度量-[0,1]
相异性度量-[0,+]
二元属性是标称属性的一种，只有两个类别或状态：0或1,其中0通常表示该属性不出现，1表示出现。
二元向量相似度（SMC、Jaccard系数）
在这里插入图片描述

多元向量间的相似度余弦相似度
在这里插入图片描述
相关性-皮尔逊相关系数

马氏距离

14、为什么要进行数据预处理以及数据预处理的主要任务？
数据预处理是数据挖掘中最为艰巨的任务，主要任务：数据清理，数据集成，数据规约，数据变换和离散化。

15、数据清洗
数据清洗包括处理无关数据，冗余属性，缺失数据，异常数据。
缺失数据的方法：忽视，手动填补，自动填补缺失值（平均值或中位数，模型预测或估计，例如贝叶斯公式，决策树）。
异常数据，如何平滑异常值：分箱，回归，聚类

16、数据变换
属性类型：连续型、离散型、序数型、标称型、字符串型等
离散化：连续型->离散型
无监督离散化：等宽离散化、等频率离散化、k-均值离散化
有监督离散化

17、采样
采样就是按照某种规则从数据集中挑选样本数据。通常应用场景数据样本过大，抽取少部分样本来训练或验证，不仅可以节约计算机资源，在特定情况下也会提升实验效果。
下采样、上采样、边缘采样
直接对数据集里数量多的类别样例进行欠采样，去除一些类别多的样例使得各个类别的样例数据接近。
欠采样若随机丢弃样例，可能丢失一些重要信息。
对训练集里数量少的样例进行过采样，即增加一些数量少的类别样例使得各个类别样例的数目接近。
过采样不能简单地对初始（数量少的类别）样本进行重复采样，否则会导致严重的过拟合。

18、什么是不平衡数据集？会产生什么弊端？如何规避？
不平衡数据集指的是数据集各个类别的样本数目相差巨大。以二分类问题为例，假设正类的样本数量远大于负类的样本数量，这种情况下的数据称为不平衡数据。
如果训练集的90%的样本是属于同一个类的，而我们的分类器将所有的样本都分类为该类，在这种情况下，该分类器是无效的，尽管最后的分类准确度为90%。所以在数据不均衡时，准确度（Accuracy）这个评价指标参考意义就不大了。实际上，如果不均衡比例超过4:1，分类器就会偏向于大的类别。
针对不平衡数据, 最简单的一种方法就是生成少数类的样本, 这其中最基本的一种方法就是：从少数类的样本中进行随机采样来增加新的样本。与过采样相反，欠采样是从多数类样本中随机选择少量样本，再合并原有少数类样本作为新的训练数据集。
随机欠采样有两种类型分别为有放回和无放回两种，无放回欠采样在对多数类某样本被采样后不会再被重复采样，有放回采样则有可能。

19、如何判断属性的好坏呢？
定性：类别柱状图（离散型属性）、类别分布图（连续型属性）
定量：熵、信息增益

20、特征子集选择的方法有那些？
穷举
分支定界
贪婪算法：最优的K个单独的属性、顺序正向选择、顺序逆向选择
优化算法

21.两个具有代表性的特征提取方法（降维方法）：
PCA(主成分分析)
LDA(线性判别分析)

22.分类概述
从数据中推导函数的技术，一种有监督的方法
基本方法包括：最近邻、决策树、贝叶斯、支持向量机、神经网络
集成方法：Boosting、随机森林

23.k-最近邻
原理：类比学习
超参数有那些？如何调节超参数？交叉验证？
超参数包括K,距离函数，调节超参数的方法：将数据划分为训练集和测试集，选择在测试集上效果最好的参数。将训练集中划分小部分作为验证集，来帮助我们选择合适的参数。
交叉验证：在训练数据较少的情况下，将训练集划分为多叠，可以通过迭代不同的验证集来获得一个更好的k值，每次选择一叠作为验证集，其余的作为训练集，得到多个准确率最后取平均值。

24.决策树
决策树的特点和优点：自顶向下的树状结构，可以很容易地从构建的树中提取出来规则，一个数据集, 可能生成很多颗树， ID3要造最短的树.
ID3生成树的基本流程？
如何通过剪枝防止过拟合？
属性选择的标准是什么？

25.贝叶斯分类器的前提假设？贝叶斯分类器的计算公式？
前提假设：条件独立
在这里插入图片描述
26.SVM

硬间隔：对于完全线性可分的数据集，分类全部准确，没有错误，此时的线性分类器的核心思想就是找到最大分类间隔。
软间隔：实际工作中的数据没有那么干净，划分数据集时容许一定量的分类错误，此时的分类间隔为软间隔。
对于非线性可分的数据集，引入了核函数，核函数将数据集投射到更高纬的空间，使得数据集线性可分。
SVM三大宝贝：间隔，对偶，核技巧

27.神经网络
在这里插入图片描述
28.分类方法总结

29.什么是聚类？与分类的区别？
聚类：寻找一组对象，使得一组中的对象彼此相似，与其他组对象无关，簇内距离最小化，簇间距离最大化。
无监督学习，没有标签，数据驱动去生成不同的簇
聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类，聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所有的记录组成不同的类或者说聚类，并且使得在这种分类情况下，以某种度量（例如：距离）为标准的相似性，在同一聚类之间最小化，而在不同聚类之间最大化

30.聚类评价标准
误差平方和(SEE)：
在这里插入图片描述
剪影（Silhouette）

31.K-means聚类

二分K-means，不易受初始化问题的影响

在这里插入图片描述
32.层次聚类和DBSCAN
凝聚和分裂

核心点，边界点，噪声点
抗噪，易受超参影响，MinPts,Eps

33.关联规则
在这里插入图片描述

数据挖掘知识点总结

猜你喜欢