站在kaggle大神的肩膀上学习

在 Kaggle 平台上，能够接触到各行各业的问题，开阔视野。在公共数据集上和国际高手切磋，也能够学习到一些比较实用的招数。比赛和研究的区别，是比赛中的方法一般都是比较有效的，在这个过程中也可以不断优化自己对新问题的解决思路。

一、问题眼花缭乱，但万变不离套路

在比赛中，有广告、交通、金融、教育、医疗等各式各样的问题，例如根据实际业务，做各种各样预测的问题（预测销量、点击率、推荐排序等）。在kaggler眼中，比赛只分为挖掘、图像、语音、NLP 四类数据挖掘问题，这四类问题需要用到的一些技术或者技巧，彼此之间可以相对独立，每类问题都有各自的套路。（当然这里不是说行业知识不重要，而是抓住问题的本质，即理解数据，理解问题，从数据中找到有用的信息用来预测，这类问题胜负更多的是在特征上。）

二、模型不是重点，特征决定排名

用同样的一些工具去训练同样的模型，在模型方面差别很小。融合也是一样，由于融合基于单模型来的，要是单模型不好，那么很大概率上融合也好不了。此外，融合的套路应该也基本上都固定了，但凡常玩的人也都知道。所以，融合基本上达不到创新，很难出现别人不知道的招。机会还是在特征上，因为只有特征还没有一个通用的标准，有可能做出点不一样的东西。

特征工程主要分两点。第一点：你可能需要了解业务，从业务本身出发，找到一些对预测有帮助的信息和线索。这是基于你对业务的熟悉，对业务的理解出发的。第二点就是需要想办法把这种信息转化成适用于模型的特征。

三、实践大于经验，尊重数据本身

每个比赛其实都有一些自己独特的数据，即使是同样领域的问题，数据的分布也可能差别很大。这时候之前的经验可能就不适用当前的问题，我们必须接受这样一个事实，需要针对数据重新去建立问题的解决方案。这是一个偏实践的问题，实践推动着你往前走。比如从数据上看，扔掉一些东西之后，在比赛中提交的预测结果会不会变好，采用以结果导向的反馈，这样迭代去往下走。

四、投入正比回报、坚持才有真知

对比各种比赛平台，玩 Kaggle 一定是最好的学习路径，因为 Kaggle 上有很好的分享机制和氛围，你能够跟着其他人的分享一步一步去学到很多东西，这一定是一个最好的学习路径和资源。坚持参加比赛，不断地去看论坛上的帖子，想想人家是怎么做的，再去改进自己的方案，那样总会迎来收获。

站在kaggle大神的肩膀上学习

猜你喜欢