特征预处理——特征表达 - 代码天地

特征预处理——特征表达

其他 2018-07-02 22:19:33 阅读次数: 0

转载自https://mp.weixin.qq.com/s/F6OUktbaGF_7lcIbh_6bYg

缺失值处理

首先看该特征是连续值还是离散值

　　如果是连续值，那么一般有两种选择，一是选择所有有该特征值的样本，然后取平均值，来填充缺失值，另一种是取中位数来填充缺失值

　　如果是离散值，则一般会选择所有有该特征值的样本中最频繁出现的类别值，来填充缺失值。在sklearn中，可以使用preprocessing.Imputer来选择这三种不同的处理逻辑做预处理。

日期、位置等特征的特殊处理

对于时间原始特征：代表方法有：

　使用连续的时间差值法，即计算出所有样本的时间到某一个未来时间之间的数值差距，这样这个差距是UTC的时间差，从而将时间特征转化为连续值
　第二种方法是根据时间所在的年，月，日，星期几，小时数，将一个时间特征转化为若干个离散特征，这种方法在分析具有明显时间趋势的问题比较好用
　第三种是权重法，即根据时间的新旧得到一个权重值。比如对于商品，三个月前购买的设置一个较低的权重，最近三天购买的设置一个中等的权重，在三个月内但是三天前的设置一个较大的权重

地理特征：比如“广州市天河区XX街道XX号”，处理成离散值和连续值都是可以的

　　　　如果是处理成离散值，则需要转化为多个离散特征，比如城市名特征，区县特征，街道特征等。但是如果我们需要判断用户分布区域，则一般处理成连续值会比较好，这时可以将地址处理成经度和纬度的连续特征。

离散特征的连续化

逻辑回归，线性回归只能处理连续特征。

最常见的离散特征连续化的处理方法是独热编码one-hot encoding。　　sklearn的OneHotEncoder可以帮我们做这个处理。
第二个方法是特征嵌入embedding。这个一般用于深度学习中。比如对于用户的ID这个特征，如果要使用独热编码，则维度会爆炸，如果使用特征嵌入就维度低很多了。对于每个要嵌入的特征，我们会有一个特征嵌入矩阵，这个矩阵的行很大，对应我们该特征的数目。比如用户ID，如果有100万个，那么嵌入的特征矩阵的行就是100万。但是列一般比较小，比如可以取20。这样每个用户ID就转化为了一个20维的特征向量。进而参与深度学习模型。在tensorflow中，我们可以先随机初始化一个特征嵌入矩阵，对于每个用户，可以用tf.nn.embedding_lookup找到该用户的特征嵌入向量。特征嵌入矩阵会在反向传播的迭代中优化。
在自然语言处理中，我们也可以用word2vec将词转化为词向量，进而可以进行一些连续值的后继处理。

连续特征的离散化处理

对常用的方法是根据阈值进行分组
当然还有高级一些的方法。比如使用GBDT。在LR+GBDT的经典模型中，就是使用GDBT来先将连续值转化为离散值。那么如何转化呢？比如我们用训练集的所有连续值和标签输出来训练GBDT，最后得到的GBDT模型有两颗决策树，第一颗决策树有三个叶子节点，第二颗决策树有4个叶子节点。如果某一个样本在第一颗决策树会落在第二个叶子节点，在第二颗决策树落在第4颗叶子节点，那么它的编码就是0,1,0,0,0,0,1，一共七个离散特征，其中会有两个取值为1的位置，分别对应每颗决策树中样本落点的位置。在sklearn中，我们可以用GradientBoostingClassifier的 apply方法很方便的得到样本离散化后的特征，然后使用独热编码即可。

猜你喜欢

转载自www.cnblogs.com/bafenqingnian/p/9256005.html

特征预处理——特征表达

特征工程——特征预处理

特征工程的预处理

数据特征预处理

特征预处理

4、特征预处理

特征工程之特征预处理

特征工程与数据预处理

数据预处理与特征选择

机器学习 - 特征预处理

数据预处理与特征工程

数据预处理（特征工程）

机器学习---特征预处理

【特征工程】数据预处理

【机器学习】特征预处理

特征预处理和特征生成 (一)数字特征

特征表达及处理

特征预处理和特征生成 (三)缺失值的处理

特征预处理--长尾分布的处理方案

数据预处理2--特征处理

特征预处理和特征生成 (二)类别特征和序数特征

kaldi语音特征预处理-mfcc特征与标签对齐（一）

机器学习特征工程之特征预处理

1. 特征工程之特征预处理

特征工程最后一个要点 : 特征预处理

特征工程系列：特征预处理（上）

特征工程系列：特征预处理（下）

特征工程—特征预处理及K-近邻算法总结

python之sklearn-特征工程-1.3 特征预处理

机器学习入门（三）：特征工程——特征预处理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)