1. 赛题背景

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。
在这里插入图片描述

2. 赛题目标

经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。

3. 数据说明

你可以在阿里云天池官网天池大赛中找到“工业蒸汽量预测”赛题，下载数据。

在这里插入图片描述

数据分成训练数据（train.txt）和测试数据（test.txt），其中字段 ”V0” - “V37”，这38个字段是作为特征变量，”target”作为目标变量。选手利用训练数据训练出模型，预测测试数据的目标变量，排名结果依据预测结果的MSE（mean square error）。

训练集预览：

4. 结果提交

选手需要提交测试数据的预测结果（txt格式，只有1列预测结果）。

5. 结果评估

预测结果以MSE (mean square error)作为评判标准。

扫描二维码关注公众号，回复： 14508983 查看本文章

计算公式如下：

在这里插入图片描述
MSE是衡量“平均误差”的一种较为方便的方法。MSE值越小，说明预测模型描述实验数据具有越高的准确度。在sklearn中可以直接调用mean_squared_error()函数计算MSE,调用方法如下：

from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, t_predict)

6. 赛题模型

在赛题分析中，很重要的一点就是根据赛题特点和明确问题的类型，并选择合适的模型。在机器学习中，根据问题类型的不同，常用的模型包括回归预测模型和分类预测模型。

6.1 回归预测模型

回归预测模型的预测结果是一个连续值域上的任意值，回归可以具有实值或离散的输入变量。我们通常把多个输入变量的回归问题称为多元回归问题，输入变量按时间排序的回归问题称为时间序列预测问题。
在这里插入图片描述

6.2 分类预测模型

分类预测模型的分类问题要求将实例分为两个或多个类中的一个，并具有实值或离散的输入变量。其中，两个类别的问题通常被称为二类分类问题或二元分类问题，多于两个类别的问题通常被称为多类别分类问题。
在这里插入图片描述

6.3 解题思路

在本赛题中，需要根据提供的V0-V37供38个特征变量来预测蒸汽量的数值，其预测值为连续型数值变量，故此问题为回归预测求解。
在这里插入图片描述

Python ML实战-工业蒸汽量预测01-赛题理解

文章目录