《美团机器实践》略看

本书PDF版链接:https://pan.baidu.com/s/1_Fblc4AfKgOMc-jd9flI8A 提取码:obwe

第一章:问题建模

ps:注意精准率与准确率是有区别的,PR曲线越靠右上角越好,ROC曲线越靠坐标的左上角越好,AUC的值越大(接近1)越好。

第二章:特征工程

  特征工程与模型二者有时候是此消彼长的,复杂模型在一定程度上减少特征工程需要做的工作。例如:对于线性模型,需要将类别变量进行独热编码等处理。但是对于复杂一些的模型,比如树模型,可以直接处理类别变量。对更复杂的深度学习,模型可以自动进行特征表示;再例如:数值特征,对于线性回归、逻辑回归等,其对输入特征的大小很敏感,对于这种光滑函数建模,需要数值特征归一化处理。而对于随机森林、梯度提升树就没必要归一化了。因此,以上讲的特征工程处理有时候要依据模型而言。

  特征选择中的过滤方法不需要结合机器学习算法(模型),封装方法直接使用机器学习算法评估特征子集的效果。过滤方法不需要机器学习算法验证,效率高简单;封装方法使用预先定义的机器学习算法评估特征选取的质量,效率低;嵌入方法说白了感觉就是在模型中进行特征选择,也就是将特征选择、机器学习算法、模型效果全融合一起。使用工具包,书中有介绍。

第三章:常用模型

  第二部分,好像不是SVM,场感知因子分解机(没怎么看)。第三部分,梯度提升树(GBDT),详细一点看这。书中有GBDT与XGBOOST的简单公式推导。

猜你喜欢

转载自www.cnblogs.com/maxiaonong/p/10600026.html