机器学习极简入门教程(三)

这是机器学习入门教程系列的第三部分,点击这里跳转到第一部分,点击这里跳转到第二部分。

part6

通过前面的学习,我们掌握了用已有数据对目标进行预测的方法。在使用模型的时候,有些人或许会好奇,模型究竟是怎样的?这里我们通过一个独特的视角——部分依赖图(Partial Dependence Plots)来认识模型。

定义

部分依赖图研究的是一组目标特征和目标函数之间的依赖关系。通俗说:部分依赖图显示每个变量或因素对模型预测的影响。

完整代码

FILE_PATH ="C:\\Users\\Administrator\\Desktop\\kaggle\\data\\"
FILE_INDEX ="melb_data.csv"
# TEST_INDEX="test.csv"
# TRAIN_INDEX="train.csv"

import pandas as pd 
from sklearn.ensemble import GradientBoostingRegressor,GradientBoostingClassifier
from sklearn.ensemble.partial_dependence import partial_dependence,plot_partial_dependence
from sklearn.preprocessing import Imputer

cols_to_use = ['Distance', 'Landsize', 'BuildingArea']

def get_some_data():
    data =pd.read_csv(FILE_PATH+FILE_INDEX)
    y = data.Price
    X = data[cols_to_use]
    my_impute = Imputer()
    impute_X = my_impute.fit_transform(X)
    return impute_X,y

X,y = get_some_data()
my_model = GradientBoostingRegressor()
my_model.fit(X,y)
my_plots =plot_partial_dependence(my_model,features=[0,1,2],
    X=X,feature_names=cols_to_use,
    grid_resolution=10)

import matplotlib.pyplot as plt 
plt.show()
  • 实验数据请到前几章寻找。
  • matplotlib这个模块后面会有讲到。
  • 部分依赖关系的计算是在模型拟合之后。

结果显示

结果示意图.png

有英文阅读能力的人点这里

猜你喜欢

转载自blog.csdn.net/u013408224/article/details/82629094
今日推荐