统计|如何处理数据处理中的缺失值？

Others 2021-11-21 09:53:20 views: null

所谓的数据清洗就是指对各种“脏数据”进行对应方式的处理，以得到标准的、干净的、连续的数据，提供给数据统计、数据挖掘等使用。当数据中出现了缺失值之后，缺失值会造成系统丢失大量有用信息，系统表现出不确定性，也会使得挖掘混乱，处理缺失值方法如下：

不处理
删除
数据插补

1. 不处理

采用不精确信息处理数据的不完备性已得到了广泛的研究，不完备数据的表达方法所依据的理论主要有可信度理论、模糊集合论等等。

2.删除

分为成对删除与成列删除。成列删除会减少样本数量，该方法适用于某些样本有多个特征值存在缺失值，且存在缺失值的样本占整个集样本数量的比例不高的情形。
如果成对删除，适用于对数据分析的目标影响不大的情况下进行删除。

3.数据插补

人工补齐：自己想怎么补就怎么补
特殊值补：比如用null值
平均值补：先求个平均值，然后填充缺失值
插值法：利用数学方法计算缺失值的估计值进行插值

另外插补的有：

热卡填充(就近填充)
k最近邻算法
使用所有可能的填充
组合完整化法
回归
期望值最大化法
多重填补
C4.5法

参考文献

康华强著高等数学-基于pytho实现.北京：北京工业出版社，2020.7

Guess you like

Origin blog.csdn.net/m0_37149062/article/details/121106782

统计|如何处理数据处理中的缺失值？

统计|如何处理数据处理中的缺失值？

pandas数据分析之缺失值处理

qt数据处理

fasta数据处理

数据处理aishell

GPS 数据处理

postgresql数据处理

js常用判断/数据处理，例如：判断数组中是否存在某个值，判断数据类型

如何处理margin中的合并和叠加现象

网站被攻击如何处理

Databricks中的ApacheSpark：数据处理与机器学习平台

(二)深度学习数据处理-----图片数据处理

处理缺失数据：详细教程与实例分析

在项目中如何处理token？

java如何处理Excel-(easyexcel)

linux 硬盘满了如何处理

pandas案例：旅游数据处理

4.4.4 字符串数据处理

4.6.3 内表数据处理

matlab数据处理代码示例

⑩SparkSQL数据处理算子

(一)机器学习数据处理

HANA数据库中对列存储数据处理-Delta Merge

一键式统计10.1测试如何小循环内批量处理数据

KVC／KVO 进阶（四）KVC是如何处理异常的

【源码解析】Spring如何处理循环依赖?

Pr 入门教程，如何处理图片文件？

应用重启正在执行的任务会如何处理?

Python数据处理之二惰性函数

Recommended

Rich text editor Quill 2.0 is released, with greatly improved features, reliability and developer experience

Ranking

The bootstrap table export function is invalid and an error is reported Uncaught INVALID_CHARACTER_ERR: DOM Exception 5 and the problem of exporting Chinese garbled characters

The application could not be installed: INSTALL_FAILED_SHARED_USER_INCOMPATIBLE

Fools Modeling-Simulated Annealing Algorithm

Web-based live chat one on one swoole

타사 플랫폼, 서버 노트

Precautions for local.properties developed by android studio

Talking about data structure - reprint

thinkphp5 installation

Bit plane layering of images

Summary of the process of creating a Windows installer with Inno Setup

Daily

More

2024-04-17(31)

2024-04-16(23)

2024-04-15(5)

2024-04-14(0)

2024-04-13(18)

2024-04-12(5)

2024-04-11(0)

2024-04-10(1)

2024-04-09(0)

2024-04-08(1)