特征选择 : 最优化搜索 与 特征背后

周一王博士将对船价格影响最大的特征:Fuel180(船用油)价格 和 北方到乍浦(2-3W)神海价格(因为乍浦最靠近目标港口)加入回归模型。 对剩下的80多个特征,我们分别用周三周四的时间各自进行了选择。

特征太多。我尝试将p_value<0.05的所有特征放进回归模型,效果并不好。因此,一狠心,做了个遗传算法,将之前选的特征事先跳出来,对剩下的特征进行提取。设置迭代为300代,最后的结果是选出26个特征,加上原来的,有31个特征。mae为5.86,比之前的mae提高将近0.5, 我觉得挺好。

但周五例会跟王博士展示时这种方法受到了批评,选择的特征中有许多是跟目标关系很小的。我们在看训练后的线性回归模型,coef_>0.05的只有6个。这些特征加上之前的15个,最后训练得到的模型的mae为6。

因此,最优化搜索并不是特征选择的绝杀,还是要考虑与特征与目标的关系。

另:

猜想: 在训练模型之前并没有将数据归一化,我们猜测有数值比较大的列(6000-8000),数值比较小的列(0.06-0.08),可能会影响系数,导致有的系数过小(<0.05,可认为系数无关)。可以做一下归一化数据后建模,看有没有影响。

查看误差项和剩余特征的相关性,继续选择相关性较强的特征加入。

总结,特征选择要挖掘特征与目标变量的关系,而不是直接搜索。

猜你喜欢

转载自blog.csdn.net/shiyueyue0822/article/details/85158828