模型融合之Stacking方法

Stacking(stacked generalization)是在大数据竞赛中不可缺少的武器

将训练好的所有基模型对整个训练集进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练，即将这些训练的模型的输出再作为为输入训练一个模型，最后得到一个最终的输出。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。如果可以选用任意的组合算法，那么理论上，Stacking可以表示上面提到的各种Ensemble方法。但是在实际应用中通常使用单层logistic回归作为组合模型。

下面我们介绍一款功能强大的stacking利器，mlxtend库，它可以很快地完成对sklearn模型地stacking。

主要有以下几种使用方法吧：

I. 最基本的使用方法，即使用前面分类器产生的特征输出作为最后总的meta-classifier的输入数据


from sklearn import datasets


iris = datasets.load_iris()

X, y = iris.data[:, 1:3], iris.target


from sklearn import model_selection

from sklearn.linear_model import LogisticRegression

from sklearn.neighbors import KNeighborsClassifier

from sklearn.naive_bayes import GaussianNB 

from sklearn.ensemble import RandomForestClassifier

from mlxtend.classifier import StackingClassifier

import numpy as np

 

clf1 = KNeighborsClassifier(n_neighbors=1)

clf2 = RandomForestClassifier(random_state=1)

clf3 = GaussianNB()

lr = LogisticRegression()

sclf = StackingClassifier(classifiers=[clf1, clf2, clf3], meta_classifier=lr)

 
print('3-fold cross validation:\n')


for clf, label in zip([clf1, clf2, clf3, sclf], 

                      ['KNN', 

                       'Random Forest', 

                       'Naive Bayes',

                       'StackingClassifier']):

 

    scores = model_selection.cross_val_score(clf, X, y,  cv=3, scoring='accuracy')

    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

II. 另一种使用第一层基本分类器产生的类别概率值作为meta-classfier的输入，这种情况下需要将StackingClassifier的参数设置为 use_probas=True。如果将参数设置为 average_probas=True，那么这些基分类器对每一个类别产生的概率值会被平均，否则会拼接。

例如有两个基分类器产生的概率输出为：

classifier 1: [0.2, 0.5, 0.3]

classifier 2: [0.3, 0.4, 0.4]

1) average = True :

产生的meta-feature 为：[0.25, 0.45, 0.35]

2) average = False:

产生的meta-feature为：[0.2, 0.5, 0.3, 0.3, 0.4, 0.4]


from sklearn import datasets

 

iris = datasets.load_iris()

X, y = iris.data[:, 1:3], iris.target

 

from sklearn import model_selection

from sklearn.linear_model import LogisticRegression

from sklearn.neighbors import KNeighborsClassifier

from sklearn.naive_bayes import GaussianNB 

from sklearn.ensemble import RandomForestClassifier

from mlxtend.classifier import StackingClassifier

import numpy as np

 

clf1 = KNeighborsClassifier(n_neighbors=1)

clf2 = RandomForestClassifier(random_state=1)

clf3 = GaussianNB()

lr = LogisticRegression()

sclf = StackingClassifier(classifiers=[clf1, clf2, clf3],

                          use_probas=True,

                          average_probas=False,

                          meta_classifier=lr)

 

print('3-fold cross validation:\n')

 

for clf, label in zip([clf1, clf2, clf3, sclf], 

                      ['KNN', 

                       'Random Forest', 

                       'Naive Bayes',

                       'StackingClassifier']):

 

    scores = model_selection.cross_val_score(clf, X, y, 

                                              cv=3, scoring='accuracy')

    print("Accuracy: %0.2f (+/- %0.2f) [%s]" 

          % (scores.mean(), scores.std(), label))

III. 另外一种方法是对训练基中的特征维度进行操作的，这次不是给每一个基分类器全部的特征，而是给不同的基分类器分不同的特征，即比如基分类器1训练前半部分特征，基分类器2训练后半部分特征（可以通过sklearn 的pipelines 实现）。最终通过StackingClassifier组合起来。


from sklearn.datasets import load_iris

from mlxtend.classifier import StackingClassifier

from mlxtend.feature_selection import ColumnSelector

from sklearn.pipeline import make_pipeline

from sklearn.linear_model import LogisticRegression

 

iris = load_iris()

X = iris.data

y = iris.target

 

pipe1 = make_pipeline(ColumnSelector(cols=(0, 2)),

                      LogisticRegression())

pipe2 = make_pipeline(ColumnSelector(cols=(1, 2, 3)),

                      LogisticRegression())

 

sclf = StackingClassifier(classifiers=[pipe1, pipe2], 

                          meta_classifier=LogisticRegression())

 

sclf.fit(X, y)

StackingClassifier 使用API及参数解析：

StackingClassifier(classifiers, meta_classifier, use_probas=False, average_probas=False, verbose=0, use_features_in_secondary=False)

参数：

classifiers : 基分类器，数组形式，[cl1, cl2, cl3]. 每个基分类器的属性被存储在类属性 self.clfs_.
meta_classifier : 目标分类器，即将前面分类器合起来的分类器
use_probas : bool (default: False) ，如果设置为True，那么目标分类器的输入就是前面分类输出的类别概率值而不是类别标签
average_probas : bool (default: False)，用来设置上一个参数当使用概率值输出的时候是否使用平均值。
verbose : int, optional (default=0)。用来控制使用过程中的日志输出，当 verbose = 0时，什么也不输出， verbose = 1，输出回归器的序号和名字。verbose = 2，输出详细的参数信息。verbose > 2, 自动将verbose设置为小于2的，verbose -2.
use_features_in_secondary : bool (default: False). 如果设置为True，那么最终的目标分类器就被基分类器产生的数据和最初的数据集同时训练。如果设置为False，最终的分类器只会使用基分类器产生的数据训练。

属性：
clfs_ : 每个基分类器的属性，list, shape 为 [n_classifiers]。
meta_clf_ : 最终目标分类器的属性

方法：

fit(X, y)
fit_transform(X, y=None, fit_params)
get_params(deep=True)，如果是使用sklearn的GridSearch方法，那么返回分类器的各项参数。
predict(X)
predict_proba(X)
score(X, y, sample_weight=None)，对于给定数据集和给定label，返回评价accuracy
set_params(params)，设置分类器的参数，params的设置方法和sklearn的格式一样

参考：

https://blog.csdn.net/willduan1/article/details/73618677/

https://rasbt.github.io/mlxtend/user_guide/classifier/StackingClassifier/

模型融合之Stacking方法

猜你喜欢