[DataAnalysis]数据挖掘常见的几种分类算法

一、数据挖掘任务分类

1、预测性和描述性的主要区别在于是否有目标变量

2、预测性包括分类和回归：

（1）分类：输出变量为离散型，常见的算法包括（朴素）贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林。

（2）回归：输出变量为连续型。

3、描述性包括聚类和关联：

（1）聚类：实现对样本的细分，使得同组内的样本特征较为相似，不同组的样本特征差异较大。例如零售客户细分。

（2）关联：:指的是我们想发现数据的各部分之间的联系和规则。常指购物篮分析，即消费者常常会同时购买哪些产品，从而有助于商家的捆绑销售。

4、建立分类模型的一般方法：

二、朴素贝叶斯

1、贝叶斯定理：

2、原理：对于给出的待分类项（即特征属性的集合），求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

3、朴素贝叶斯分类流程

三、决策树

1、原理，相当于找对象

2、决策树定义：

决策树（DecisionTree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

3、决策树构造：