特征预处理和特征生成 (三)缺失值的处理 - 代码天地

特征预处理和特征生成 (三)缺失值的处理

其他 2018-05-24 07:11:10 阅读次数: 0

一，填充缺失值

填充NaN的方法要取决于特定情况！
填充缺失值常用的方法有以下三种：

将NaN替换为一个常数，如-1，-999等等。
这种方法可以认为是将缺失值看成了一个单独的类别。这种方法的缺点是线性网络的性能会受到影响。
将NaN替换为均值或者中位数、众数等。
这种方法通常对简单线性模型和神经网络有益。但是对基于树的模型而言，首先选择缺失值的对象可能会更困难。
通过已有的值构建出缺失值的值，例如可以专门通过一个模型来预测缺失值。
一些模型自带缺失值处理功能，不用专门再处理缺失值，如XGBoost和CatBoost。

需要注意的是有时候缺失值已经被组织者替换了！

二，利用缺失值生成新特征

通常情况下，在特征生成之前要避免填充NaNs！

1，二值特征isnull可能会很有用，它指明了哪些特征是缺失值，可以看做一个类别特征。

在计算平均值或中位数时，这种方法可以解决树和神经网络的问题。但是这样做的缺点是我们会在数据集中增加两倍的列数。

2，我们想用数字特征对类别特征进行编码。为了达到这个目的，我们计算每个类别的数字特征的平均值，并用这些平均值替换类别。
在计算平均值的时候一般要先忽视缺失值！否则就会出现下面的情况！类别B进行数字编码后的特征会十分接近填充的值！

3，有时我们也可以那些outliers看成缺失值。

4，有时候一些类别特征的一些类别不会出现在训练数据中，但我们可以加一些全局特征，如每个类别在训练集和测试集中出现的次数，这样有可能对预测那些没在训练集出现的类别有一些帮助，如下所示。

三，总结

猜你喜欢

转载自blog.csdn.net/h2026966427/article/details/80163785

特征预处理和特征生成 (三)缺失值的处理

特征预处理和特征生成 (一)数字特征

特征预处理和特征生成 (二)类别特征和序数特征

特征预处理——特征表达

特征工程——特征预处理

数据预处理与特征工程总结 - 缺失值(二)

机器学习实战基础（十）：sklearn中的数据预处理和特征工程（三）数据预处理 Preprocessing & Impute 之缺失值

特征工程的预处理

数据特征预处理

特征预处理

4、特征预处理

简单的数据预处理和特征工程

数据预处理和特征工程

数据预处理和特征选择

【skLearn 数据预处理和特征工程】特征工程

【skLearn 数据预处理和特征工程】数据预处理

机器学习中的特征工程和数据预处理技术是什么？如何处理缺失值和异常值？

特征向量的缺失值处理

特征工程中缺失值处理

特征工程之缺失值处理

特征工程之特征预处理

python数据预处理之缺失值简单处理，特征选择

weka学习（三）缺失值处理

特征工程与数据预处理

数据预处理与特征选择

机器学习 - 特征预处理

数据预处理与特征工程

机器学习---特征预处理

数据预处理（特征工程）

【特征工程】数据预处理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)