天池精准医疗大赛:人工智能辅助糖尿病遗传风险预测——新手第一次参加数据竞赛的收获与教训

前言:初赛215名/2522,A榜成绩一直在前100名,最好时大约排名前10。

B榜换了测试数据后,结果大跌眼镜,成绩只有200多名,应该是模型不够稳定,或者说过拟合了。

虽然对最终的成绩感到有点小小的遗憾,但在这次比赛中确实收获了不少,做一个小小的总结。第一次参加比赛,会把整个工程都做特别详细的介绍,就当是个小小的教程,分享给有需要的小伙伴们~

附上github:https://github.com/LCJHust/MedicalTreat_Diabetes

初赛方案

1.数据观察

  导入数据,观察数据规模、数据类型、是否含有空值、计较训练数据和测试数据的不同。

  

  

2.数据预处理(数据清洗):

   (1)读入数据后,为了数据显示与观察的方便,将所有的columns都用英文名称代替。


   (2)性别特征做one-hot coding,男性为1,女性为0。


   (3)观察到最早的体检日期为2017-09-15,将所有的日期都转化为距离该最早体检日期的天数。


   (4)用中值或者平均值填充空值。在多次提交结果中发现,这两者区别并不是很大,平均值效果略微比中值好一些。


3.特征工程

  (1)做特征间的加减乘除四则运算,生成大量候选特征,依次向最优子集添加。如果线下交叉验证结果有较为明显的提升,则将生成的特征加入作为新的特征。


   (2)部分特征的缺失值的比例非常高,而用中值或者平均值填充后病没有明显的改善,并且无法找到合理的解释,于是我们决定删除那些有大量缺失值的特征。在lightgbm模型中,做了特征重要性排名,根据排名删除那些对结果几乎没有贡献或者贡献很小的特征。


4.模型训练

  (1)我们最初使用的是xgboost模型,6折交叉验证,之后又采用lightgbm和randomforest进行模型融合,最终的预测结果为:


一点点小收获

1.在训练模型时,仅仅采用大赛给的测评函数进行评估,在线下进行分析时没有从模型的多个角度评价模型的好坏。

2.观察数据发现,有一些样本的血糖值非常高,大于20,而我们的模型预测测试数据时,最高的血糖值不会超过10,。简而言之,模型无法预测实际血糖较高的样本。关于这一点,我个人认为,测试数据中的这部分样本本身就是异常值,属于较大的噪声,故模型无法做出准确的预测。

3.针对第2点,我们对预测结果进行了一些后处理,找出预测结果中较大的一小部分值,将人为地它们进行扩大。事实证明,进行后处理的A榜结果有很大的改善,排名明显提高,但是我们也因此陷入了误区。正因为这些数据是异常值,而我们却想尽一切办法尽可能地去逼近这些值,这样做训练出来的模型鲁棒性很差,严重过拟合测试数据A,对另一组测试数据B非常不利,因为你无法得知B榜数据的异常值是什么样的。我认为这是造成我们A榜、B榜结果相差甚远的最主要原因。

4.我们缺少对特征之间关联性、独立性的分析,特征工程做得不是很好。

5.我们缺少对两组测试数据的分布情况的分析,没有对此做出相应的调整。

6.心态上,小白第一次参加比赛,在前20多天里,排名没有掉过前100,到了初赛后期已经十分轻敌了,状态有些松懈,心里还一直美滋滋乐呵呵,暗搓搓地觉得自己可牛皮了呢,然而被最终被打脸啪啪响(哭哭)。

7.总之,有经历才有成长嘛!

猜你喜欢

转载自blog.csdn.net/lcjhust2012/article/details/79367096