特征工程和网路搜索交叉验证

  1. 正则化
    作用:
    ①解决了过拟合
    ②避免了不可逆矩阵
    使用:

  2. 标准化
    x = (features-mean_)/std_

  3. 归一化

    概念:
    (x-mean)/(max-min)
    或者 (x- min)/(max_-min_)

from sklearn.preprocessing import MinMaxScaler
range = feature_range=(0, 1) 想要调整的数据范围是多少
minmax = MinMaxScaler(range)

#fit会计算features中的最大值和最小
#minmax.fit(features)

#transform 会使用刚才fit中的最大最小值套用公式,返回结果
#minmax.transform(features)

#fit和transform给拼接在一块了
x = minmax.fit_transform(features)

#将归一化的数据x还原
inv_a = minmax.inverse_transform(x)
  1. 查准率和召回率
    模型评估很高,但是可能是数据偏斜,所以还需要判断是否是高查准率和高召回率
    查准率:precision
    召回率:recall
    在这里插入图片描述

  2. 网格搜索和交叉验证
    estimator 估计器
    param_grid 超参数,要求数据类比必须是哈希包裹序列 {‘n_neighbors’:
    目的:找到一个组得分高又稳的数据(泛化性不错的,又准确的模型)

    网格搜索:循环算法,使用不同超参数生成大量的模型,找到准确率最高的模型。(如果只考虑得分高就好,那么失去了泛化性)

    交叉验证:循环算法,把数据集随机分成n个等分,使用不通过的数据进行测试评估,评估准确率的稳定程度

    如果使用gc得到的结果依然是过拟合的或欠拟合的,那么一定是数据有问题

  3. 文本的特征工程
    概念:①文本是一维、②字符不能进行加减乘除、③文本特征工程把文字变成二维可计算数字

猜你喜欢

转载自blog.csdn.net/Q632655672/article/details/106212306