通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

原文链接

在机器学习的模型中，通常有两类参数，第一类是通过训练数据学习得到的参数，也就是模型的系数，如回归模型中的权重系数，第二类是模型算法中需要进行设置和优化的超参，如logistic回归中的正则化系数和决策树中的树的深度参数等。在上一篇文章中，我们通过验证曲线来寻找最优的超参，在这篇文章中，将通过一种功能更为强大的寻找超参的技巧：网格搜索，它可以寻找最优的超参组合，来提高模型的性能。

一. 网格(grid search)搜索寻找超参

网格搜索：网格搜索其实是一种暴力搜索参数的方法，它通过我们指定不同的超参列表进行穷举搜索，并计算每一个超参组合对于模型性能的影响，来获取最优的超参组合。下面通过sklearn来实现网格搜索寻找超参

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

if __name__ == "__main__":
    #读取数据
    data = pd.read_csv("G:/dataset/wdbc.csv")
    #获取X
    X = data.ix[:,2:32]
    #获取字符串类别标签
    label_y = data.ix[:,1]
    #将字符串的标签转为数字
    label = LabelEncoder()
    Y = label.fit_transform(label_y)
    #将数据集分为训练集和测试集
    train_x,test_x,train_y,test_y = train_test_split(X,Y,test_size=0.2,random_state=1)
    #初始化一个流水线类
    pipe = Pipeline([("std",StandardScaler()),
                     ("clf",SVC(random_state=1))])
    #定义参数的取值
    param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
    #定义一个网格搜索的参数
    '''
    线性的SVM只需要，只需要调优正则化参数C
    基于RBF核的SVM，需要调优gamma参数和C
    '''
    param_grid = [{"clf__C":param_range,
                   "clf__kernel":['linear']},
                  {"clf__C":param_range,
                   "clf__gamma":param_range,
                   "clf__kernel":['rbf']}]
    #网格搜索超参
    grid_search = GridSearchCV(estimator=pipe,param_grid=param_grid,
                               scoring="accuracy",cv=10,n_jobs=-1)
    grid_search = grid_search.fit(train_x,train_y)
    #获取模型的最优超参
    print(grid_search.best_params_)
    #{'clf__C': 0.1, 'clf__kernel': 'linear'}
    #获取最好的结果
    print(grid_search.best_score_)
    #0.978021978022

通过上面的结果可以发现，当SVM的核为”linear”时，参数C为0.1时，模型获得最好的结果为97.8%。

测试模型在测试集上的准确率

    clf = grid_search.best_estimator_
    print(clf.score(test_x,test_y))
    #0.964912280702

网格搜索是一种功能强大的寻找超参的方法，但是由于它在寻找超参的时候使用的是穷举法，需要评估所有的参数组合，所以计算成本也是非常高的。sklearn还提供一种随机网格搜索参数RandomizedSearchCV类，可以以特定的代价从抽样分布中随机抽取参数组合。

二. 嵌套交叉验证

这里写图片描述

当我们需要在不同的机器学习算法中进行选择的时候，可以通过嵌套交叉验证来进行选择。在对于误差估计的偏差情形研究中表明：使用嵌套交叉验证，估计的真实误差与在测试集上得到的结果几乎没有差距。

嵌套交叉验证分为外部循环和内部循环，在外部循环中，我们将数据分为训练块和测试块。在内部循环中，我们将训练块分为训练块和测试块，在训练块上使用k折交叉验证，测试块用于对于模型进行评估，通过内部循环来进行模型选择。通过上图可以发现，外部循环由5个模块组合，内部循环由2个模块组成，因此嵌套交叉验证也被称为5×2交叉验证。下面通过sklearn来实现嵌套交叉验证

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score

if __name__ == "__main__":
    #读取数据
    data = pd.read_csv("G:/dataset/wdbc.csv")
    #获取X
    X = data.ix[:,2:32]
    #获取字符串类别标签
    label_y = data.ix[:,1]
    #将字符串的标签转为数字
    label = LabelEncoder()
    Y = label.fit_transform(label_y)
    #将数据集分为训练集和测试集
    train_x,test_x,train_y,test_y = train_test_split(X,Y,test_size=0.2,random_state=1)
    #初始化一个流水线类
    pipe = Pipeline([("std",StandardScaler()),
                     ("clf",SVC(random_state=1))])
    #定义参数的取值
    param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
    #定义一个网格搜索的参数
    '''
    线性的SVM只需要，只需要调优正则化参数C
    基于RBF核的SVM，需要调优gamma参数和C
    '''
    param_grid = [{"clf__C":param_range,
                   "clf__kernel":['linear']},
                  {"clf__C":param_range,
                   "clf__gamma":param_range,
                   "clf__kernel":['rbf']}]
    #网格搜索超参
    grid_search = GridSearchCV(estimator=pipe,param_grid=param_grid,
                               scoring="accuracy",cv=5,n_jobs=-1)
    scores = cross_val_score(grid_search,train_x,train_y,scoring="accuracy",cv=5)
    print("CV accuracy:%.3f +/- %.3f"%(np.mean(scores),np.std(scores)))
    #CV accuracy:0.978 +/- 0.012

通过嵌套交叉验证来判断决策树的表现性能

    from sklearn.tree import DecisionTreeClassifier
    param_range = [1,2,3,4,5,6,7,8,9,10]
    grid_search = GridSearchCV(estimator=DecisionTreeClassifier(random_state=0),
                               param_grid=[
                                   {"max_depth":param_range}
                               ],scoring="accuracy",cv=5)
    scores = cross_val_score(estimator=grid_search,X=train_x,y=train_y,scoring="accuracy",cv=5)
    print("CV accuray:%.3f +/- %.3f"%(np.mean(scores),np.std(scores)))
    #CV accuray:0.908 +/- 0.045

通过SVM和决策树的嵌套交叉验证结果表明，SVM的模型性能要高于决策树模型的性能。