scikit-learn 支持向量机

参考链接：http://www.cnblogs.com/solong1989/p/9620170.html

参数：

C : float, optional (default=1.0)

惩罚系数，用来控制损失函数的惩罚系数，类似于LR中的正则化系数。C越大，相当于惩罚松弛变量，希望松弛变量接近0，即对误分类的惩罚增大，趋向于对训练集全分对的情况，这样会出现训练集测试时准确率很高，但泛化能力弱，容易导致过拟合。 C值小，对误分类的惩罚减小，容错能力增强，泛化能力较强，但也可能欠拟合。

kernel : string, optional (default=’rbf’)

指定要在算法中使用的内核类型。它必须是'linear'，'poly'（多项式核函数），'rbf'（高斯核函数），'sigmoid'，'precomputed'（用户自定义核函数）或者“callable”（可调用）之一。如果没有给出，将使用'rbf'。如果给出callable，则它用于从数据矩阵预先计算内核矩阵; 该矩阵应该是一个形状数组（n_samples，n_samples）。

常用的核函数：https://blog.csdn.net/batuwuhanpei/article/details/52354822

一般有如下指导规则：

如果Feature的数量很大，甚至和样本数量差不多时，往往线性可分，这时选用LR或者线性核Linear；

如果Feature的数量很小，样本数量正常，不算多也不算少，这时选用RBF核；

如果Feature的数量很小，而样本的数量很大，这时手动添加一些Feature，使得线性可分，然后选用LR或者线性核Linear；

多项式核一般很少使用，效率不高，结果也不优于RBF；

Linear核参数少，速度快；RBF核参数多，分类结果非常依赖于参数，需要交叉验证或网格搜索最佳参数，比较耗时；

应用最广的应该就是RBF核，无论是小样本还是大样本，高维还是低维等情况，RBF核函数均适用。

degree : int, optional (default=3)

当指定kernel为'poly'时，表示选择的多项式的最高次数，默认为三次多项式；若指定kernel不是'poly'，则忽略，即该参数只对'poly'有用。（多项式核函数是将低维的输入空间映射到高维的特征空间）

gamma : float, optional (default=’auto’)

核函数系数 for ‘rbf’, ‘poly’ and ‘sigmoid’.

当前默认值为'auto'，它使用1 / n_features，如果传递gamma ='scale'，则它使用1 /（n_features * X.std（））作为gamma的值。当前默认的gamma''auto'将在版本0.22中更改为'scale'。

'auto_deprecated'，不推荐使用'auto'版本作为默认值，表示没有传递明确的gamma值。

核函数系数，该参数是rbf，poly和sigmoid的内核系数；默认是'auto'，那么将会使用特征位数的倒数，即1 / n_features。（即核函数的带宽，超圆的半径）。gamma越大，σ越小，使得高斯分布又高又瘦，造成模型只能作用于支持向量附近，可能导致过拟合；反之，gamma越小，σ越大，高斯分布会过于平滑，在训练集上分类效果不佳，可能导致欠拟合。

coef0 : float, optional (default=0.0)

核函数中的独立项。它只在'poly'和'sigmoid'中很重要。

shrinking : boolean, optional (default=True)

是否进行启发式。此时相当于使用SMO算法，将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。

如果能预知哪些变量对应着支持向量，则只要在这些样本上训练就够了，其他样本可不予考虑，这不影响训练结果，但降低了问题的规模并有助于迅速求解。进一步，如果能预知哪些变量在边界上(即a=C)，则这些变量可保持不动，只对其他变量进行优化，从而使问题的规模更小，训练时间大大降低。这就是Shrinking技术。 Shrinking技术基于这样一个事实：支持向量只占训练样本的少部分，并且大多数支持向量的拉格朗日乘子等于C。

probability : boolean, optional (default=False)

是否启用概率估计。必须在调用fit之前启用它，并且会减慢该方法的速度。

tol : float, optional (default=1e-3)

能够容忍的停止标准，即残差收敛条件，默认是0.0001，即容忍1000分类里出现一个错误，与LR中的一致；误差项达到指定值时则停止训练。

cache_size : float, optional

Specify the size of the kernel cache (in MB).缓冲大小，用来限制计算量大小，默认是200M。

class_weight : {dict, ‘balanced’}, optional

权重设置，正类和反类的样本数量是不一样的，这里就会出现类别不平衡问题，该参数就是指每个类所占据的权重，默认为1，即默认正类样本数量和反类一样多，也可以用一个字典dict指定每个类的权值，或者选择默认的参数balanced，指按照每个类中样本数量的比例自动分配权值。如果不设置，则默认所有类权重值相同，以字典形式传入。将类i的参数C设置为SVC的class_weight [i] * C. 如果没有给出，所有课程都应该有一个重量。 “平衡”模式使用y的值自动调整与输入数据中的类频率成反比的权重，如n_samples /（n_classes * np.bincount（y））

类似决策树中class_weight的作用

verbose : bool, default: False

是否启用详细输出。在训练数据完成之后，会把训练的详细信息全部输出打印出来，可以看到训练了多少步，训练的目标值是多少；但是在多线程环境下，由于多个线程会导致线程变量通信有困难，因此verbose选项的值就是出错，所以多线程下不要使用该参数。

max_iter : int, optional (default=-1)

最大迭代次数。

求解器内迭代的硬限制，-1表示无限制

decision_function_shape : ‘ovo’, ‘ovr’, default=’ovr’

原始的SVM只适用于二分类问题，如果要将其扩展到多类分类，就要采取一定的融合策略，这里提供了三种选择。‘ovo’ 一对一，为one v one，即将类别两两之间进行划分，用二分类的方法模拟多分类的结果，决策所使用的返回的是（样本数，类别数*(类别数-1)/2）； ‘ovr’ 一对多，为one v rest，即一个类别与其他类别进行划分，返回的是(样本数，类别数)，或者None，就是不采用任何融合策略。默认是ovr，因为此种效果要比oro略好一点。

Changed in version 0.19: decision_function_shape is ‘ovr’ by default.

New in version 0.17: decision_function_shape=’ovr’ is recommended.

Changed in version 0.17: 不推荐使用decision_function_shape ='ovo'和None.

random_state : int, RandomState instance or None, optional (default=None)

在使用SVM训练数据时，要先将训练数据打乱顺序，用来提高分类精度，这里就用到了伪随机序列。

如果是int，则random_state是随机数生成器使用的种子; 如果是RandomState实例，则random_state是随机数生成器; 如果为None，则随机数生成器是np.random使用的RandomState实例.

scikit-learn 支持向量机

猜你喜欢