Python ML实战-工业蒸汽量预测01-赛题理解

在这里插入图片描述

1. 赛题背景

火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
在这里插入图片描述

2. 赛题目标

经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。

3. 数据说明

你可以在阿里云天池官网天池大赛中找到“工业蒸汽量预测”赛题,下载数据。

在这里插入图片描述

数据分成训练数据(train.txt)和测试数据(test.txt),其中字段 ”V0” - “V37”,这38个字段是作为特征变量,”target”作为目标变量。选手利用训练数据训练出模型,预测测试数据的目标变量,排名结果依据预测结果的MSE(mean square error)。

训练集预览:
训练集

4. 结果提交

选手需要提交测试数据的预测结果(txt格式,只有1列预测结果)。

5. 结果评估

预测结果以MSE (mean square error)作为评判标准。

扫描二维码关注公众号,回复: 14508983 查看本文章

计算公式如下:

在这里插入图片描述
MSE是衡量“平均误差”的一种较为方便的方法。MSE值越小,说明预测模型描述实验数据具有越高的准确度。在sklearn中可以直接调用mean_squared_error()函数计算MSE,调用方法如下:

from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, t_predict)

6. 赛题模型

在赛题分析中,很重要的一点就是根据赛题特点和明确问题的类型,并选择合适的模型。在机器学习中,根据问题类型的不同,常用的模型包括回归预测模型和分类预测模型。

6.1 回归预测模型

回归预测模型的预测结果是一个连续值域上的任意值,回归可以具有实值或离散的输入变量。我们通常把多个输入变量的回归问题称为多元回归问题,输入变量按时间排序的回归问题称为时间序列预测问题
在这里插入图片描述

6.2 分类预测模型

分类预测模型的分类问题要求将实例分为两个或多个类中的一个,并具有实值或离散的输入变量。其中,两个类别的问题通常被称为二类分类问题或二元分类问题,多于两个类别的问题通常被称为多类别分类问题。
在这里插入图片描述

6.3 解题思路

在本赛题中,需要根据提供的V0-V37供38个特征变量来预测蒸汽量的数值,其预测值为连续型数值变量,故此问题为回归预测求解。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_31557939/article/details/126558492
今日推荐