【学习笔记】机器学习

机器学习算法模型构建过程:
1.获取数据集
2.对数据集进行特征工程处理(如标准化、异常值、缺失值)
3.划分训练集(Training Set)、测试集(Test Set)、验证集(Validation Set)
4.用训练集训练模型
5.用测试集评估模型效果

模型中给定的参数称为“超参”,模型的调参就是指调超参
(训练集相同,超参不同会得到不同的模型)
模型的选择:逻辑回归、决策树

训练集:用于模型的训练
验证集:用来调节超参,选出得分最高的一组超参
测试集:观察模型效果

训练集、验证集、测试集比例:
70:15:15
80:10:10
60:20:20

模型评估指标

混淆矩阵(二分类/n分类)

真实Positive 真实Negative
预测Positive TP FP
预测Negative FN TN

1.准确率(Accuracy):(TP+TN)/(TP+FP+FN+TN)
2.精确率(Precision):TP/(TP+FP)
3.召回率(Recall):TP/(TP+FN)
4.F1值(综合考虑精确率和召回率):2 * Precision * Recall/(Precision+Recall)
5.ROC曲线:(ROC曲线越靠近左上角越好)
纵坐标:TPR=TP/(TP+FN)
横坐标:FPR= FP/(FP+TN)
不同的分类阈值(0到1之间)有不同的混淆矩阵,每个混淆矩阵对应一个点(FPR,TPR),将这些点连成线则形成ROC曲线

ROC曲线与x轴形成的面积表示为AUC值(0到1之间),越大越好(值越大即说明越靠近左上角)
6.PR曲线:(PR曲线越靠近右上角越好)(更关心正类预测结果且样本不平衡的情况下使用)
纵坐标:Precision
横坐标:Recall

猜你喜欢

转载自blog.csdn.net/qq_33218097/article/details/128523757
今日推荐