天池比赛-资金流入流出预测-挑战Baseline--反思

起因:距离上次第一次进行预测已经经过了十几天了。虽然经过了这么多天,但是比赛成绩没有什么成效...因此在这个特殊的日子来反思一下,想一下接下来要怎么弄。

回顾历程:

1.第一次上手预测是用了GBT模型,10个属性作为特征,tBalance和yBalance来拟合模型,评分较低6.7。

2.第二次和第三次记得不是很清楚了,但是第三次的评分是这么多次的预测来最高的,28分。貌似是用第一次时间序列预测的结果,即二次差分,q=1,p=1的ARMA模型预测的,然后对tBalance和yBalance来预测。虽然评分高,但是我觉得这是偶然的,不是必然的。

3.接下来的第四次到第七次,方向跑到预测total_purchase_amt和total_redeem_amt去了,用的还是第一次时间序列预测的结果。其中第六次是将total_purchase_mat拆成直接购买和收益两部分来预测,total_redeem_amt拆成转出和消费来预测,它这个成绩是这几次比较高的,21分。然后这几次的时间序列预测数据改变了,在用了网格搜索法进行模型参数搜索后,对每个属性都决定了适合的模型参数,在这种情况下时间序列得到一个比之前准确的数据。这几次预测有一个很重要的错误就是,结果数据集包含了8月份的,导致结果都很差。

4.最后是第八次和第九次的,第八次改正了前面说过的错误,数据集是9月份的,用后面的新利率数据,预测total_purchase_amt和redeem。评分是24分,第九次则是用后面4个属性作为特征,评分17。由这两次预测可以知道,特征还是要用到10个属性。

总结一下:

数据预测准确性提高的方法在:

1.9月份利率数据的准确性的提高

2.10个属性跟结果的关系弄清楚,即怎么用10个属性去预测结果,这个很关键。

猜你喜欢

转载自blog.csdn.net/ximingren/article/details/79325536