天池AI大赛 智能制造预测赛题

一、赛题与要求的简单介绍   (多特征少样本问题)    

      本次比赛提供的是生产线上不同工序的生产数据(具体代表什么含义未可知),通过这些数据构建特征,设计模型,预测与之对应的生产数值。评判标准采用MSE,计算单个样本预测值与真实值的差距,再对所有样本进行MSE求和,最后取平均作为评判标准。

二、数据描述

     数据包括ID列、工具列和数据列,他们有自己的命名格式。数据从形式上主要按照工具列标识分为十三组。每两个工具列之间的数据为一道工序。因为数据列与特征列Y经过脱敏处理,所以具体含义也无从知晓。每一数据列的并不是按照明显的时间顺序排列的,所以工序内数据列的顺序为随机的。部分数据存在大量缺失值,并且也有很多列仅有一个值,同时也有很多列完全重复。

    在每个列内,数据的分布很明显受到工具的影响。在部分数据列中,缺失值已经被0或者其他的异常值填充。

三、数据预处理

1、分工序。对整个数据集按照工具列分为不同工序。基于数值观测,将chamber id列与tool列合并,并将operation_id

和chamber作为工具列进行工具划分。



2、数据清洗

将单一值列、空值列、重复列删除

3、将8位、16位等日期格式转换为从2016.1.1以来的秒数

4、将空白值(0与NA)填充为同一列其他非空值得平均值。

四、特征构建

1、将计算单因子和双因子交互列并纳入备选特征;

(1)X为特征原始值,Xerr为原始值与该列平均值之差,取绝对值得到Xerrabs

(2)对双因子(设为X和Y)建立X+Y,X-Y,X/Y、Y/X的特征向量。


2、备选特征筛选

既然一列能产出三个特征,一对列能产生十五个双因子特征,那么会产生很多备选特征。所以需要对特征进行最初的筛选。采用的是计算各列与特征值Value的pearson相关性,选取相关性高的进行保存。

3、模型选取尝试过SVR、LASSO、GBDT以及模型融合等。最终用了xgboost。

猜你喜欢

转载自blog.csdn.net/Jacoob1024/article/details/79954636
今日推荐