相关阅读:
- 【机器学习竞赛+笔记干货】工业蒸汽量预测:赛题理解篇(一)
- 【机器学习竞赛+笔记干货】工业蒸汽量预测:数据探索篇(二)
- 【机器学习竞赛+笔记干货】工业蒸汽量预测:特征工程篇(三)
- 【机器学习竞赛+笔记干货】工业蒸汽量预测:模型训练篇(四)
- 【机器学习竞赛+笔记干货】工业蒸汽量预测:模型验证篇(五)
- 【机器学习竞赛+笔记干货】工业蒸汽量预测:特征优化篇(六)
- 【机器学习竞赛+笔记干货】工业蒸汽量预测:模型融合篇(七)
比赛地址:工业蒸汽量预测_学习赛_天池大赛
1 赛题理解
1.3 数据概览
1.3.2 数据说明
V0~V37共38个字段是特征变量,target字段是目标变量。
1.4 评估指标
预测结果以均方误差MSE(Mean Squared Error)作为评判标准。计算公式如下: M S E = S S E n = 1 n ∑ i = 1 n w i ( y i − y i ^ ) 2 MSE=\frac{SSE}{n}=\frac{1}{n}\sum_{i=1}^{n}{w_i(y_i-\hat{y_i})^2} MSE=nSSE=n1i=1∑nwi(yi−yi^)2
在sklearn中可直接调用函数计算MSE:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test,y_predict)
1.5 赛题模型
1.5.3 解题思路
在本赛题中,需要根据提供的V0~V37共38个特征变量来预测蒸汽量的数值,其预测值为连续性数值变量,故此问题为回归预测求解。
回归预测模型使用的算法包括线性回归(Linear Regression)、岭回归(Ridge Regression)、LASSO(Least Absolute Shrinkage and Selection Operator)回归、决策树回归(Decision Tree Regression)、梯度提升回归树(Gradient Boosting Decision Tree Regression)。