【机器学习】SVM,决策树,随机森林知识点整理

SVM

目的

支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标就是间隔最大化,即基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。当超平面的距离与它最近的数据点的间隔越大,分类的鲁棒性就越好,于是当新的数据点加入时,超平面对这些点的适应性越强,出错的可能性就越大。

优点

  1. 非线性间隔映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射。
  2. SVM的目标是找到对特征空间划分的最优超平面,SVM方法的核心是最大化分类边际的思想。
  3. SVM的训练结果是支持向量,在分类决策中起到决定性作用。
  4. SVM是一种小样本的学习方法,从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预测样本的“转导推理”,简化了通常的分类和回归问题。
  5. SVM最终的决策函数只由少数的支持向量决定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,在某种意义上避免了“维数灾难”。
  6. 有较好的鲁棒性:增删非支持向量样本对模型没有影响,SVM方法对核的选取不敏感。

不足

  1. SVM算法对大规模训练样本难以实施。
  2. SVM对解决多分类问题存在困难。

决策树

目的

决策树是一种树形结构,每个内部节点表示一个属性上的测试,每个分支表示一个测试的输出,每个叶子节点代表一种类别。决策树学习的目的是为了产生一棵泛化能力强,即处理未见实例能力强的决策树,其基本流程遵循简单且直观的“分而治之”的策略。决策树学习最关键的在于如何选择最优划分属性

优点

  1. 决策树易于理解和实现,通过解释人们都有能力去理解决策树表达的意义。
  2. 数据处理前应当去掉多余的或者空白的属性。
  3. 能够同时处理数据型和常规型的属性,可以接受数据属性的多样性。
  4. 对缺失值不敏感。
  5. 可以处理不相关的特征数据。
  6. 只需构建一次,便可以反复使用,每一次预测的最大计算次数不超过决策树的深度。

缺点

  1. 容易造成过拟合,即将训练集自身的一些特点作为所有数据的一般性质,导致过拟合,需要进行剪枝处理。
  2. 对于有时间顺序的数据,需要很多的预处理的工作。
  3. 当类别太多时,错误可能就会增加的比较快。
  4. 只能根据一个字段进行分类。
  5. 在处理特征关联性比较强的数据时,表现不好。

随机森林

目的

随机森林是一个用随机方式建立的,包含多个决策树的分类器。其随机性主要体现在两个方面:(1)训练每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即BootStrap取样);(2)在每个节点,随机选取所有特征的一个子集,用来计算最佳的分割方式。

优点

  1. 能够处理高维(即特征很多)的数据,并且不用进行特征选择,是随机选择的。
  2. 训练结束后,能够给出哪些特征比较重要。
  3. 模型的泛化能力较强。
  4. 训练速度快,容易做成并行化方法,训练时树与树之间是相互独立的。
  5. 在训练过程中,能够检测到特征间的相互影响。
  6. 对于不平衡的数据集来说,可以平衡误差。
  7. 具有鲁棒性,即使有特征遗失,仍可以维持准确度。

缺点

  1. 在噪音较大的分类或回归问题上会出现过拟合。
  2. 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生很大的影响,因此随机森林在这种数据上产生的属性权值是不可信的。

猜你喜欢

转载自blog.csdn.net/weixin_42864175/article/details/88755913