RDKit | 基于RF和SVM的溶解度预测模型比较

随机森林与支持向量机


随机森林

  • 目的

随机森林是一个用随机方式建立的,包含多个决策树的分类器。其随机性主要体现在两个方面:(1)训练每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即BootStrap取样);(2)在每个节点,随机选取所有特征的一个子集,用来计算最佳的分割方式。

  • 优点

能够处理高维(即特征很多)的数据,并且不用进行特征选择,是随机选择的。
训练结束后,能够给出哪些特征比较重要。
模型的泛化能力较强。
训练速度快,容易做成并行化方法,训练时树与树之间是相互独立的。
在训练过程中,能够检测到特征间的相互影响。
对于不平衡的数据集来说,可以平衡误差。
具有鲁棒性,即使有特征遗失,仍可以维持准确度。

  • 缺点

在噪音较大的分类或回归问题上会出现过拟合。
对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生很大的影响,因此随机森林在这种数据上产生的属性权值是不可信的。

SVM

  • 目的

支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标就是间隔最大化,即基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。当超平面的距离与它最近的数据点的间隔越大,分类的鲁棒性就越好,于是当新的数据点加入时,超平面对这些点的适应性越强,出错的可能性就越大。

  • 优点

非线性间隔映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射。
SVM的目标是找到对特征空间划分的最优超平面,SVM方法的核心是最大化分类边际的思想。

猜你喜欢

转载自blog.csdn.net/u012325865/article/details/103860274