缺失值处理（Missing Values） - 代码天地

缺失值处理（Missing Values）

其他 2019-08-22 13:38:01 阅读次数: 0

什么是缺失值？缺失值指数据集中某些变量的值有缺少的情况，缺失值也被称为NA（not available）值。在pandas里使用浮点值NaN（Not a Number）表示浮点数和非浮点数组中的缺失值，用NaT表示时间序列中的缺失值，此外python内置的None值也会被当作是缺失值。需要注意的是，有些缺失值也会以其他形式出现，比如说用0或无穷大（inf）表示。

缺失值产生的原因： a. 数据采集时发生错误

b. 数据提取过程有问题

处理缺失值的方法：

1. 直接删除（Deletion）：如果缺失值非常少，不影响整体数据，那么可以直接删除整条记录（list-wise deletion）。这种方法的优点是简单，缺点是减少了样本数量。

2. 用标量插补（Single Imputation）：如果缺失值比较少，那么可以使用平均值，中位数，众数进行插补。

3. 插值法（Interpolation）：先求得插值函数，然后将缺失值对应的点代入插值函数得到缺失值的近似值。常见插值方法有拉格朗日插值法、分段插值法、样条插值法、线性插值法。

4. 用模型预测（Model-based Imputation）：通过模型来估计缺失值，是处理缺失值比较复杂的方法。如果缺失值很多，但是比较适用模型预测。在这种情况下，我们将数据集分为两组：一组没有缺失值，另一组有缺少值。第一个数据集成为模型的训练数据集，而有缺失值的第二个数据集是测试数据集，有缺失值的变量被视为目标变量。接下来，我们创建一个模型，根据训练数据集的特征预测目标变量，并填充测试数据集的缺失值。我们可以使用线性回归，随机森林，最近邻法，逻辑回归等各种建模技术来执行此操作。

这种方法有两个缺点：

模型的估计值通常比真实值更好
如果数据集中的特征与有缺少值的特征之间没有关系，那么模型估计将不精确。

附：

猜你喜欢

转载自www.cnblogs.com/HuZihu/p/9641248.html

缺失值处理（Missing Values）

Missing Values（缺失值）

pandas统计dataframe中包含缺失值的行的个数（counting number of rows with missing values in dataframe）

Handling Missing Values

7.Handling Missing Values

pandas使用notna函数、all函数、sum函数计算dataframe中不包含缺失值的数据行的个数（number of rows without missing values)

[R: package swirl]Selection: 5 Missing Values

java-枚举值enum的values用法

Python enum multiple values 枚举多个值

UVA 11235 - Frequent values（预处理+RMQ）

Android lottie java.lang.IllegalStateException: Missing values for keyframe.

Android lottie java.lang.IllegalStateException: Missing values for keyframe

Android逆向开发合并res目录到apk中，处理values目录的values.xml文件

Object.values把对像的值转化成数组

SpringMVC-Handler-Return Values返回值

ABAP：DYNP_VALUES_READ读取屏幕字段值

ORA-00947: Not enough values 没有足够的值

存储过程返回值 procedure return values

keys,values,entries（获取对象或数组的值或索引）

INSERT into table VALUES 值为多个select查询结果

array_values — 返回数组中所有的值

hdu Frequent values （线段树求最值）

python中如何给dict的values设置默认值

（Python）在机器学习中如何使用pandas处理categorical values

ValueError: not enough values to unpack (expected 2, got 1) 异常处理

My values

Frequent values

Distinct Values

NTSTATUS Values

values()方法

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)