-
正则化
作用:
①解决了过拟合
②避免了不可逆矩阵
使用: -
标准化
x = (features-mean_)/std_ -
归一化
概念:
(x-mean)/(max-min)
或者 (x- min)/(max_-min_)
from sklearn.preprocessing import MinMaxScaler
range = feature_range=(0, 1) 想要调整的数据范围是多少
minmax = MinMaxScaler(range)
#fit会计算features中的最大值和最小
#minmax.fit(features)
#transform 会使用刚才fit中的最大最小值套用公式,返回结果
#minmax.transform(features)
#fit和transform给拼接在一块了
x = minmax.fit_transform(features)
#将归一化的数据x还原
inv_a = minmax.inverse_transform(x)
-
查准率和召回率
模型评估很高,但是可能是数据偏斜,所以还需要判断是否是高查准率和高召回率
查准率:precision
召回率:recall
-
网格搜索和交叉验证
estimator 估计器
param_grid 超参数,要求数据类比必须是哈希包裹序列 {‘n_neighbors’:
目的:找到一个组得分高又稳的数据(泛化性不错的,又准确的模型)网格搜索:循环算法,使用不同超参数生成大量的模型,找到准确率最高的模型。(如果只考虑得分高就好,那么失去了泛化性)
交叉验证:循环算法,把数据集随机分成n个等分,使用不通过的数据进行测试评估,评估准确率的稳定程度
如果使用gc得到的结果依然是过拟合的或欠拟合的,那么一定是数据有问题
-
文本的特征工程
概念:①文本是一维、②字符不能进行加减乘除、③文本特征工程把文字变成二维可计算数字