机器学习第二周打卡：分类评价+线性回归+拆分训练集和测试集方法 - 代码天地

机器学习第二周打卡：分类评价+线性回归+拆分训练集和测试集方法

其他 2020-04-14 11:24:18 阅读次数: 0

分类评价结果

我们使用分类算法将训练集进行分类后，我们怎么判定分类算法的好坏，就需要用到相关指标。

混淆矩阵
使用条件：对于极度偏斜的数据，是不能使用混淆矩阵的。比如99.9%的人都会患癌症等。
在这里插入图片描述
其中，
精准率=TP/(FP+TP)，即预测值里面，准确的数据占比是多少。
召回率=TP/(FN+TP)，即真实值里面，准确被预测的数据占比是多少。
那接下来的问题，两个指标中，在某个模型中，达到什么样的数据才是最好的？有没有可能混合成一个指标=两个指标的加权数值？
这种的话，就需要看需求进行评判了，当然能也有混合成一个指标的指标，即F1 SCORE，
在这里插入图片描述
sklearn调用方法：

from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_log_predict)

from sklearn.metrics import precision_score
precision_score(y_test, y_log_predict)

from sklearn.metrics import recall_score
recall_score(y_test, y_log_predict)

分类阈值：即预测中，超过多少才能被分成一类。
ROC曲线：在这里插入图片描述

from sklearn.metrics import roc_curve

fprs, tprs, thresholds = roc_curve(y_test, decision_scores)
plt.plot(fprs, tprs)
plt.show()

AUC面积：
AUC是ROC曲线和X轴内的面积大小。
在这里插入图片描述

from sklearn.metrics import roc_auc_score
roc_auc_score(y_test, decision_scores)

以上是对分类的评价。

线性回归

线性回归比较好理解，即做一条X自变量的Y应变量曲线，然后用R2来判定回归曲线的准确度。
sklearn调用方法：

from sklearn.metrics import r2_score
r2_score(y_test, y_predict)

拆分训练集和测试集方法

方法核心是将索引进行随机排序，然后再把索引对应到数组中进行取值。

macmurphy

发布了23 篇原创文章 · 获赞 0 · 访问量 622

私信关注

猜你喜欢

转载自blog.csdn.net/macmurphy/article/details/104738796

机器学习第二周打卡：分类评价+线性回归+拆分训练集和测试集方法

机器学习第四周打卡：线性回归算法

机器学习第七周打卡：逻辑回归

ARST第二周打卡

机器学习数据集（训练集、测试集）划分方法

机器学习，训练集，验证集和测试集的作用

数学建模国赛：python机器学习基础之训练集和测试集拆分、算法精确率评估

机器学习（第二周）-多元线性回归

机器学习001—生成训练集和测试集

「机器学习速成」为什么要拆分为三个集：训练集、验证集、测试集

机器学习代码实战——拆分训练集与测试集（train_test_split）

Yolov5学习第二周--训练数据集

机器学习第五周打卡：梯度下降

机器学习：训练集与测试集的划分

深度之眼Pytorch打卡（六）：将数据集切分成训练集、验证集和测试集的方法

【123】TensorFlow 多个特征值线性回归，并且使用训练集、验证集和测试集的例子

机器学习数据集的获取和测试集的构建方法

训练集和测试集划分方法

机器学习训练集/开发集/测试集挑选

机器学习：训练集，验证集与测试集

python 机器学习划分训练集/测试集/验证集

机器学习中的训练集验证集测试集的关系

机器学习中的训练集，验证集及测试集的关系

机器学习----训练集、验证集、测试集

机器学习笔记：训练集、验证集与测试集

【学习笔记】训练集和测试集

机器学习中训练集、验证集和测试集的作用

机器学习中训练集、验证集和测试集的作用】【转】

如何正确使用机器学习中的训练集、验证集和测试集？

自己制作机器学习训练和测试使用的二进制数据集（C++）

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

SVN同步出现问题

解决 nginx 出现 413 Request Entity Too Large 的问题

第一节区块链服务BaaS的总体架构以及基本模块设计的一种方案

ITeye 2013年度盘点——社区赠书书单

IDEA / git 和github 的新手使用教程史上最简单的 IntelliJ IDEA 教程史上最简单的 GitHub 教程

测试工程方法：测试用例设计综合策略

Spark优化(三)：对多次使用的RDD进行持久化

使用STM32 ST-LINK Utility 设置读保护后不能运行

exgcd 解同余方程ax=b(%n)

Android使用脚本进行多渠道打包

每日归档

更多

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)