SVM

目的

支持向量机是一种经典的二分类模型，基本模型定义为特征空间中最大间隔的线性分类器，其学习的优化目标就是间隔最大化，即基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。当超平面的距离与它最近的数据点的间隔越大，分类的鲁棒性就越好，于是当新的数据点加入时，超平面对这些点的适应性越强，出错的可能性就越大。

优点

非线性间隔映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射。
SVM的目标是找到对特征空间划分的最优超平面，SVM方法的核心是最大化分类边际的思想。
SVM的训练结果是支持向量，在分类决策中起到决定性作用。
SVM是一种小样本的学习方法，从本质上看，它避开了从归纳到演绎的传统过程，实现了高效的从训练样本到预测样本的“转导推理”，简化了通常的分类和回归问题。
SVM最终的决策函数只由少数的支持向量决定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，在某种意义上避免了“维数灾难”。
有较好的鲁棒性：增删非支持向量样本对模型没有影响，SVM方法对核的选取不敏感。

不足

SVM算法对大规模训练样本难以实施。
SVM对解决多分类问题存在困难。

决策树

目的

决策树是一种树形结构，每个内部节点表示一个属性上的测试，每个分支表示一个测试的输出，每个叶子节点代表一种类别。决策树学习的目的是为了产生一棵泛化能力强，即处理未见实例能力强的决策树，其基本流程遵循简单且直观的“分而治之”的策略。决策树学习最关键的在于如何选择最优划分属性。

优点

决策树易于理解和实现，通过解释人们都有能力去理解决策树表达的意义。
数据处理前应当去掉多余的或者空白的属性。
能够同时处理数据型和常规型的属性，可以接受数据属性的多样性。
对缺失值不敏感。
可以处理不相关的特征数据。
只需构建一次，便可以反复使用，每一次预测的最大计算次数不超过决策树的深度。

缺点

容易造成过拟合，即将训练集自身的一些特点作为所有数据的一般性质，导致过拟合，需要进行剪枝处理。
对于有时间顺序的数据，需要很多的预处理的工作。
当类别太多时，错误可能就会增加的比较快。
只能根据一个字段进行分类。
在处理特征关联性比较强的数据时，表现不好。

随机森林

目的

随机森林是一个用随机方式建立的，包含多个决策树的分类器。其随机性主要体现在两个方面：(1)训练每棵树时，从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即BootStrap取样)；(2)在每个节点，随机选取所有特征的一个子集，用来计算最佳的分割方式。

优点

能够处理高维(即特征很多)的数据，并且不用进行特征选择，是随机选择的。
训练结束后，能够给出哪些特征比较重要。
模型的泛化能力较强。
训练速度快，容易做成并行化方法，训练时树与树之间是相互独立的。
在训练过程中，能够检测到特征间的相互影响。
对于不平衡的数据集来说，可以平衡误差。
具有鲁棒性，即使有特征遗失，仍可以维持准确度。

缺点

在噪音较大的分类或回归问题上会出现过拟合。
对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生很大的影响，因此随机森林在这种数据上产生的属性权值是不可信的。

【机器学习】SVM，决策树，随机森林知识点整理

SVM

目的

优点

不足

决策树

目的

优点

缺点

随机森林

目的

优点

缺点

猜你喜欢