[DataAnalysis]数据挖掘常见的几种分类算法

一、数据挖掘任务分类


1、预测性和描述性的主要区别在于是否有目标变量

2、预测性包括分类和回归

(1)分类:输出变量为离散型,常见的算法包括(朴素)贝叶斯、决策树、逻辑回归、KNNSVM、神经网络、随机森林

(2)回归:输出变量为连续型。

3、描述性包括聚类和关联

(1)聚类:实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。例如零售客户细分。

(2)关联::指的是我们想发现数据的各部分之间的联系和规则。常指购物篮分析,即消费者常常会同时购买哪些产品,从而有助于商家的捆绑销售

4、建立分类模型的一般方法:



二、朴素贝叶斯

1、贝叶斯定理:


2、原理:对于给出的待分类项(即特征属性的集合),求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

3、朴素贝叶斯分类流程

三、决策树

1、原理,相当于找对象



2、决策树定义:

决策树(DecisionTree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

3、决策树构造:


其中属性选择度量的算法很多,一般使用自顶向下递归分治法,并采用不回溯的贪心策略。ID3和C4.5是两种常用算法。

4、ID3算法:


信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。

基本信息包括:熵,期望信息和信息增益。

(1)熵:D为用类别对训练元组进行的划分,则D表示为:


其中?i表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。

(2)期望信息:

现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:


(3)信息增益:


(4)待补充案例:SNS社区中不真实账号检测的例子如中使用ID3算法构造决策树。

5、C4.5算法:

(1)ID3算法存在的问题:偏向于多值属性,例如,如果存在唯一标识属性ID,则ID3会选择它作为分裂属性,这样虽然使得划分充分纯净,但这种划分对分类几乎毫无用处。(例如会选择主键)

(2)原理:C4.5算法是基于ID3算法进行改进后的一种重要算法,使用信息增益率来选择属性。


四、逻辑回归

1、原理:











猜你喜欢

转载自blog.csdn.net/tomocat/article/details/79102867