站在kaggle大神的肩膀上学习

在 Kaggle 平台上,能够接触到各行各业的问题,开阔视野。在公共数据集上和国际高手切磋,也能够学习到一些比较实用的招数。比赛和研究的区别,是比赛中的方法一般都是比较有效的,在这个过程中也可以不断优化自己对新问题的解决思路。

一、问题眼花缭乱,但万变不离套路

在比赛中,有广告、交通、金融、教育、医疗等各式各样的问题,例如根据实际业务,做各种各样预测的问题(预测销量、点击率、推荐排序等)。在kaggler眼中,比赛只分为挖掘、图像、语音、NLP 四类数据挖掘问题,这四类问题需要用到的一些技术或者技巧,彼此之间可以相对独立,每类问题都有各自的套路。(当然这里不是说行业知识不重要,而是抓住问题的本质,即理解数据,理解问题,从数据中找到有用的信息用来预测,这类问题胜负更多的是在特征上。)

二、模型不是重点,特征决定排名

用同样的一些工具去训练同样的模型,在模型方面差别很小。融合也是一样,由于融合基于单模型来的,要是单模型不好,那么很大概率上融合也好不了。此外,融合的套路应该也基本上都固定了,但凡常玩的人也都知道。所以,融合基本上达不到创新,很难出现别人不知道的招。机会还是在特征上,因为只有特征还没有一个通用的标准,有可能做出点不一样的东西。

特征工程主要分两点。第一点:你可能需要了解业务,从业务本身出发,找到一些对预测有帮助的信息和线索。这是基于你对业务的熟悉,对业务的理解出发的。第二点就是需要想办法把这种信息转化成适用于模型的特征。

三、实践大于经验,尊重数据本身

每个比赛其实都有一些自己独特的数据,即使是同样领域的问题,数据的分布也可能差别很大。这时候之前的经验可能就不适用当前的问题,我们必须接受这样一个事实,需要针对数据重新去建立问题的解决方案。这是一个偏实践的问题,实践推动着你往前走。比如从数据上看,扔掉一些东西之后,在比赛中提交的预测结果会不会变好,采用以结果导向的反馈,这样迭代去往下走。

四、投入正比回报、坚持才有真知

对比各种比赛平台,玩 Kaggle 一定是最好的学习路径,因为 Kaggle 上有很好的分享机制和氛围,你能够跟着其他人的分享一步一步去学到很多东西,这一定是一个最好的学习路径和资源。坚持参加比赛,不断地去看论坛上的帖子,想想人家是怎么做的,再去改进自己的方案,那样总会迎来收获。

猜你喜欢

转载自blog.csdn.net/Li_yi_chao/article/details/81743516
今日推荐