数据与特征处理 - 代码天地

数据与特征处理

其他 2018-05-06 21:57:05 阅读次数: 3

不同数据类型处理

数值型

统计值：max，min，mean，std(方差)
离散化
比如将价格分成不同的段（可以等宽也可以不等宽），每一段表示一个向量，不同的价格可能会是同一个向量。
Hash分桶
每个类别下对应的变量统计值histogram（分布状况）
可将数值型 => 类别型
幅度调整/归一化

类别型

one-hot编码/哑变量
比如红、黄、蓝分别对应一个向量， one-hot编码每一个值对应一个向量。
hash与聚类处理
小技巧：统计每个类别变量下的各个target比例，转化成数值型。

时间型

既可以看做连续值，也可以看做离散值。
1.连续值

持续时间（单页浏览时长）
间隔时间（上次购买/点击距离现在的时间）

2.离散值
列一天中的哪个时间段
一周中星期几
一年中哪个星期
一年中哪个季度
工作日/周末

文本型

词袋
文本数据预处理后，去掉停用词，剩下的词组成list，在词库中映射成稀疏向量。
把词袋中的词扩充到n-gram。
TF-IDF：
TF(Term-Frequency),TF(t)=(词t在当前文中出现的次数)/(t在全部文档中出现的次数)
IDF(t)=ln(总文档数/含t的文档数)
TF-IDF权重=TF(t)*IDF(t)
词袋=>word2vec

统计型

加减平均
分位线
次序型：排在第几位
比例类：比如电商中好/中/差评的比例

组合型
简单组合特征：拼接型
模型特征组合
用GBDT产出组合特征，并将组合特征与原始特征一起放入LR训练。

猜你喜欢

转载自blog.csdn.net/yingfengfeixiang/article/details/80103931

数据与特征处理

数据特征预处理

数据的特征处理

特征工程与数据预处理

数据预处理与特征选择

数据预处理与特征工程

数据预处理（特征工程）

【特征工程】数据预处理

Pandas数据清洗及特征处理

数据预处理2--特征处理

数据预处理---数据清理 & 特征工程

数据预处理与数据特征选定

数据预处理——数据特征选择

【skLearn 数据预处理和特征工程】特征工程

数据预处理——包裹式特征选取

数据预处理——过滤式特征选取

Python数据分析和特征处理

机器学习sklearn—数据的特征预处理

机器学习中的数据清洗与特征处理

从数据预处理到特征工程

【机器学习】数据预处理与特征工程

特征工程之数据预处理

机器学习数据、特征处理、模型融合

数据归一化特征处理

机器学习——数据特征预处理

特征工程之数据预处理（下）

数据分析-特征预处理

特征处理之数据离散化

sklearn 数据处理与特征工程

03_数据的特征预处理

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)