【特征工程】为什么我要记录我学习特征工程的过程

坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

确实在实践过程中,数据处理和特征选择占据了整个项目大部分的时间,模型和算法就那么几个,训练的时候往上套就行。

比如说Kaggle的入门比赛Titanic问题,要求对各种特征及其间关系有深刻的理解,合理的处理数据,模型预测效果才够好。xgboost是个非常强大的工具,但我简单的特征工程之后xgboost预测的效果还没有只用性别特征做预测的效果好,这说明我的特种工程不够好,考虑的不够多。

正好手头有一本 Feature Engineering for Machine Learning ,我希望能迅速过一遍这本书以加深我对特征工程的理解。当然,进步最快的方式还是hands on,亲手做项目。所以在学习书上内容的同时我也要继续打Kaggle锻炼自己。


With no further ado, let's get started!

特别强调的是,做特征工程也很看重领域知识,但是有些实践手段是通用而且有效

通过本书,我们将学习到

  • 到底什么是特征工程,为什么特种工程很重要,怎么做好特种工程
  • 探索特征缩放, bin counting,frequent sequence mining等技巧
  • 理解无监督特征学习及其在深度学习中的应用机制
  • 文本挖掘,图片标记,客户流失预测,目标广告投放实战

希望能够坚持下来。

猜你喜欢

转载自blog.csdn.net/nemoyy/article/details/79428653
今日推荐