数据挖掘的方法

数据挖掘方法

Data Mining（数据挖掘）是指用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识（模型或规则）的过程。

分类模型是监督式学习模型，
即分类需要使用一些已知类别的样本集去学习一个模式，用学习得到的模型来标注那些未知类别的实例。在构建分类模型的时候，需要用到训练集与测试集，训练集用来对模型的参数进行训练，而测试集则用来验证训练出来的模型的效果的好坏，即用来评价模型的好坏程度，常用的评价指标有准确率与召回率。针对不同的分类任务、不同的数据以及不同的适应场景，分类中有着不同的分类算法。

常见的分类方法包括：决策树、贝叶斯、K近邻、支持向量机、基于关联规则、集成学习、人工神经网络。

决策树
决策树是进行分类与预测的常见方法之一，决策树学习方法是从训练集中每个样本的属性进行构建一棵属性树，它按照一定的规则选择不同的属性作为树中的节点来构建属性和类别之间的关系，常用的属性选择方法有信息增益、信息增益率以及基尼系数等。它采用自顶而下递归构建这颗属性类别关系树，树的叶子节点便是每个类别，非叶子节点便是属性，节点之间的连线便是节点属性的不同取值范围。
决策树构建后，便从决策树根节点开始从上到下对需要进行类别标注的实例进行属性值的比较，最后到达某个叶子节点，该叶子节点所对应的类别便是该实例的类别。常用的决策树算法有ID3、C4.5/C5.0、CART等。这些算法的区别主要在于属性选择的策略、决策树的结构(如决策树中出现重复属性)、是否采用剪枝以及剪枝的方法、是否处理大数据集(即算法的复杂度，包括时间与空间复杂度)等。

贝叶斯分类器
贝叶斯分类算法是基于概率论中的贝叶斯公式对实例进行分类的算法，它使用贝叶斯公式计算实例特征向量下每个类别的条件概率，选择条件概率最大所对应的类别作为其类别。常见的贝叶斯分类算法包括朴素贝叶斯、贝叶斯网络等，区别在于假设属性之间是否条件独立。
朴素贝叶斯是假设属性之间是条件独立的，但是这种假设往往是不成立的。
而贝叶斯网络是假设部分属性之间是有关联的，从而构建一个属性有向网络。

K近邻
K近邻算法是基于实例的分类算法。该算法首先定义一个邻居范围，即设定邻居的个数，然后采用投票的方式来决定自己所属的类别，即多数战胜少数的策略，自己的类别为邻居中大部分所对应的类别。一般都是采用欧式距离，即选取欧式距离最近的K个已标注类别的样本作为自己的邻居，既可以采取邻居平等投票的方式，也可以采取邻居权值的方式进行投票，即不同的邻居的意见有着不同的权重，一般距离越近的邻居权重越大。

支持向量机
支持向量机(SVM)是一种统计机器学习分类算法，它是建立在由Vapnik和Chervonenkis提出的统计学习理论的VC维理论和结构风险最小化原理的基础上。结构化风险等于经验风险加上置信风险，而经验风险为分类器在给定训练样本上的误差，置信风险为分类器在未知类别的实例集上的分类误差。给定的训练样本的数量越多，泛化能力越有可能越好，则学习效果越有可能更好，此时置信风险越小。以前的学习算法目标是降低经验风险，要降低经验风险，则需要增加模型对训练样本的拟合度，即提高分类模型的复杂度，此时会导致VC维很高，泛化能力就差，置信风险就高，所以结构风险也高。而SVM算法则是以最小化结构风险为目标，这便是SVM的优势。SVM是最大化分类几何间隔来构建最优分类超平面来提高模型的泛化能力的。并且引入核函数来降低VC维的。支持向量机在对未知类别的实例进行分类时使用该实例落在超平面哪个区域所对应的类别作为该实例的类别的。

猜你喜欢