skiti-learn逻辑回归算法库

skiti-learn中，与逻辑回归相关的3个类：LogisticRegression, LogisticRegressionCV,logistic_regression_path。LogisticRegressionCV使用交叉验证选择正则化系数C。logistic_regression_path类则比较特殊，它拟合数据后，不能直接来做预测，只能为拟合数据选择合适逻辑回归的系数和正则化系数。主要是用在模型选择的时候。一般情况用不到这个类。

正则化选择参数：penalty
penalty选择"l1"或"l2"，两种正则化方式，默认的为L2正则化。
为了防止过拟合，一般采用L2正则化足够了，如果采用L2正则化发现还是过拟合，就可以考虑L1正则化，另外，我们希望把一些不重要的特征系数归零，使模型系数稀疏的话，也可以采用L1正则化。
penalty的选择会影响损失函数的优化方式，即solver参数的选择。如果使用L2正则化可以有四种优化方式，（newton-cg , lbfgs , liblinear , sag) .而选择L1正则化只能有一种优化方式 liblinear。这个与L1正则化损失函数不是连续可导有关。
优化算法选择参数：solver
solver参数有四种优化算法可以选择。
1）liblinear:内部采用的是坐标轴下降法
2）lbfgs:拟牛顿法的一种，利用损失函数二阶导矩阵即海森矩阵迭代优化损失函数
3)newton-cg:牛顿法的一种，也是利用损失函数二阶导矩阵海森矩阵优化损失函数
4）sag:随机平均梯度下降，每次迭代只采用一部分样本计算梯度，适用于数据量多的样本
逻辑回归分二元逻辑回归和多元逻辑回归，而多元逻辑回归又分OvR（one-vs-rest)和MvM(many-vs-many)两种，而liblinear只支持OvR。所以当遇到MvM的情况是不能采用L1正则化
分类方式选择参数：multi_class
multi_class决定分类的选择方式，有OvR和multinomia两种，默认是ovr
OvR的思想很简单，无论你是多少元逻辑回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元逻辑回归，得到第K类的分类模型。其他类的分类模型获得以此类推。
而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，T2作为负例，进行二元逻辑回归，得到模型参数。我们一共需要T(T-1)/2次分类。
OvR分类效果相对略差（大多情况下），不过速度快，且简单；MvM分类相对精确。
ovr可以使用四种损失函数优化方式。MvM只能使用三种，无法使用liblinear。
类型权重参数：class_weight
class_weight标示分类模型各种类型的权重，不输入，即不考虑权重或者说所有类型的权重相同。输入的话，可以选择balanced让库类型自己计算权重；或者我们自己输入权重，比如0，1二元模型，class_weight={0:0.9,1:0.1},这样类型0的权重为90%，1为10%。
balanced会根据训练样本量来计算权重，样本量越低，权重越高。
在分类模型中我们一般会遇到以下两种情况：
1. 误分类的代价很高。比如分类合法用户和非法用户，将非法用户分类为合法用户的代价很高，我们宁愿将合法用户分类为非法用户。这样我们可以适当提高非法用户的权重。
2. 样本高度失衡。比如我们用户样本有10000条，合法用户有9995，而非法用户只有5条。不考虑权重，所有的可能都将预测为合法用户，不过毫无意义。我们可以用balanced，让类库自动提高非法用户的权重。
样本权重参数：sample_weight
当样本不平衡导致模型预测能力下降，我们采用调节样本权重来解决。调节岩本权重的方法有两种：一种是calss_weight使用balanced;二种是在调用fit函数时使用sample_weight。如果以上方法都用到了则样本的真正权重是calss_weight*sample_weight。
另外还有些参数比如正则化参数C（交叉验证就是 Cs），迭代次数max_iter等。与其他库用法相同。

skiti-learn逻辑回归算法库

猜你喜欢