数据挖掘竞赛

其他 2020-04-04 22:24:48 阅读次数: 0

天池二手汽车预测赛_task1

数据挖掘评估性能度量

回归任务性能度量
分类任务性能度量

数据挖掘评估性能度量

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure).

回归任务性能度量

在预测任务中，给定样例集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ,其中y是示例x的真实标记.要评估学习其的性能，就要把学习器的预测结果f和真实标记y进行比较：

均方误差(mean squared error,MSE) 其计算公式为: $E(f;D) =1/m*{\sum_{m=1}^m}(f(x_i)-y_i)$
一般形式： $E(f;D) = \int(f(x) - y)^2p(x)$
平均绝对误差（Mean Absolute Error,MAE） :平均绝对误差，其能更好地反映预测值与真实值误差的实际情况，其计算公式如下: $E(f;D) = 1/m * {{\sum_{m=1}^m}|f(x_i) - y_i|}$
R2(R-Square)的公式为残差平方和: $SS_{res} = {{\sum_{m=1}^m}(f(x_i)-y_i)^2}$
总平均值: $SS_{tot}= {{\sum_{m=1}^m}(f(x_i) - y_{mean} )^2}$
其中y_mean表示y的平均值得到表达式为：
$R^2 = 1 - \frac{ SS_{res}}{SS_{tot}}$
R2用于度量因变量的变异中可由自变量解释部分所占的比例，取值范围是 0~1，越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近，用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以也称为拟合优度(Goodness of Fit)的统计量。
yi表示真实值， f(xi)表示预测值， y_mean表示样本均值。得分越高拟合效果越好。

分类任务性能度量

1.错误率(error rate)与精度(accuracy) 这是分类任务中最常用的两种性能度量，既适用于二分类任务，也适用于多分类任务.错误率是分类错误的样本数占样本总数的比例.对样本D，分类错误率定义为:
$E(f;D) = 1/m * {\sum_{i=1}^m}(f(x_i) \cancel= y_i )$
精度定义为:
$acc(f;D) =1/m * {\sum_{i=1}^m}(f(x_i)=y_i)$
$=1-E(f;D)$

weixin_42295319

发布了4 篇原创文章 · 获赞 0 · 访问量 68

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_42295319/article/details/105080453

数据挖掘竞赛网站

数据挖掘竞赛资料

数据挖掘竞赛

数据挖掘竞赛--数据清洗

数据挖掘竞赛的基本步骤

【天池竞赛】心跳数据挖掘

数据科学竞赛-数据挖掘赛流程

数据挖掘竞赛中常用的ML

滴滴数据挖掘竞赛题目

数据挖掘相关领域竞赛推荐

数据挖掘：智慧教育竞赛复盘

"阿里巴巴"杯北邮数据挖掘竞赛（一）

数据挖掘竞赛利器-Stacking和Blending方式

数据挖掘竞赛利器1-Embeding方式

数据挖掘竞赛-员工离职预测训练赛

数据挖掘竞赛-轴承故障检测训练赛

数据挖掘竞赛黑科技——对抗验证（Adversarial validation）

【听课笔记】数据挖掘竞赛——特征工程中的开发与技巧

数据挖掘竞赛-优胜解决方案实战

【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测

数据挖掘天池竞赛——心电图心跳信号多分类预测Task2数据分析

kaggle竞赛系列3----python数据挖掘时间序列时间量分析（以elo竞赛为例）

数据挖掘竞赛经验（1）- 6个月拿下kaggle master

数据挖掘竞赛kaggle初战——泰坦尼克号生还预测

机器学习竞赛分享：通用的团队竞技类的数据分析挖掘方法

数据挖掘项目：问答网站问题及回答数量预测(Sofa竞赛)排名：3/155

数据挖掘天池竞赛——心电图心跳信号多分类预测Task1赛题理解

数据挖掘项目实战—Kaggle入门竞赛：房价预测之EDA与特征工程

数据挖掘竞赛——糖尿病遗传风险检测挑战赛进阶

数据挖掘竞赛——糖尿病遗传风险检测挑战赛Baseline

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)