数据挖掘笔记

数据挖掘 笔记

标签(空格分隔): 特征提取


实习期间参加了CCF大数据比赛,总结期间用到的一些数据提取想法

数据提取方法

One-hot Encoding

Alter变更有11种类型,将变更类型进行One-hot Encoding编码,再统计每个类型的总量。

时间窗口特征

统计时间区间内行为累积, 比如统计某个企业 [2, 5, 8, 13, 21, 35]个月内的变更Alter记录数目

Binning

也称为 Bucketization:对连续的特征做离散化。(以 age 这样的特征为例,你可以把所有年龄拆分成 n 段, 0-18 岁、18-40 岁、40-70 岁等,然后把个别的年龄,对应到某⼀段,假设 26 岁是对应到第⼆个 bucket,那新特征的值就是 2。) 比赛应用:对某个企业所投资机构的存活时间做Binning,然后再统计不同的存活时间里的机构数目,对应的就是统计了某企业所投资的机构中存活时间0~1年的有多少。

统计特征:

对一些特征求和, 求最大最小值等

参考文章:
京东算法大赛
数据挖掘调研报告

猜你喜欢

转载自blog.csdn.net/xfzero/article/details/79962253
今日推荐