对于特征工程的一些简单总结（其一） - 代码天地

对于特征工程的一些简单总结（其一）

其他 2018-05-18 15:56:39 阅读次数: 3

结合最近正做的马银金服比赛中遇到的小问题，以kaggle上的house prices competition的一篇kernel的特征工程处理为例子做一些简单的总结。

house prices地址：https://www.kaggle.com/c/house-prices-advanced-regression-techniques

kernel地址：https://www.kaggle.com/serigne/stacked-regressions-top-4-on-leaderboard

1.离群点分析与处理（outliers）

数据离散程度的图，分类用boxplot，回归用scatter。也不知道我是哪根筋搭错了，二分类问题上来就画了个scatter，画面很美。

而且好似分类问题没有离群点的处理，如果有的话也是4C标准里面的数据准确性（correct）出了问题，比如80岁误写成800这种情况，这就需要手动纠正。

重要的是：outlier的处理不能做上头，一些主要的特征上，离群很夸张的点是完全没问题的，但是如果每个feature都去除，或者去除的离群点过多的话肯定会对最后的模型精确度造成很大影响。

2.正太分布的数据转换（data transformation）

因为回归问题上很多的ML model都需要数据服从正太分布，当然这是理想状况，大多时候数据是不正太分布的。

首先通过图标查看数据：

distplot()：

很明显我们看出房价不服从正太分布。

还有一个很直观的方法：

Q-Q图，可以用来检验数据是否服从某一分布，scipy里有现成的函数来实现：probplot()

这样就更明显，数据并不符合正态分布，因此进行data-transformation：

简单粗暴的log(1+x)，对应numpy函数：log1p(data)，转换后：

好多了。

猜你喜欢

转载自www.cnblogs.com/fancyUtech/p/9056480.html

对于特征工程的一些简单总结（其一）

时间序列的特征工程——一些总结

对于一些错误总结

request和其一些应用

response和其一些应用

简单总结LEGO-LOAM相对于LOAM的一些改进及不同点

electron开发记录(五)：调用jquery,bootstrap并对其一些用法的总结

关于特征工程的一些学习、思考与错误的纠正

对于let，const，var的一些简单理解

对于http/http2的一些总结

对于指针运算的一些心得总结

mysql中对于模糊查询like的一些总结

对于 Android 业务开发的一些理解总结

对于学习JavaSE数据类型一些总结

对于授课准备工作结束的一些总结

对于JAVA中异常的一些基础总结

对于连接vpn时的一些错误的总结

IO流及其一些操作

Hadoop学习-hdfs安装及其一些操作

线程概念及其一些函数

课件要点及其一些补充

tomcat的一些简单了解总结

LevelDB的一些简单总结

Java与锁的一些简单总结

Git的一些简单操作总结

关于简单回文的一些总结、

shiro的一些简单的总结

mysql简单优化的一些总结

HOOK技术的一些简单总结

一些特征杂记

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)