数据处理备忘清单 - 代码天地

数据处理备忘清单

其他 2019-06-12 13:38:10 阅读次数: 0

本次笔记内容：

...虽然我明白每次拿到的数据都不一样，数据处理和清洗的步骤和侧重也不一样，但总有一些共性。这使得一个备忘清单很有必要。拿到一套数据后，我们可以对着清单排雷，并加上新遇到的雷。

所以本笔记内容是做数据处理和清洗时需要注意的东西。持续更新，欢迎补充。

我们使用python pandas数据处理

这里的数据指目前我们工作中遇到的微生物组metadata，如电子病历，问卷收集的研究对象社会人口学信息，生活习惯等。有手工录入的，也有自动收集并导出的数据。本质上也是由samples和features构成的data.

重复值: 重复行/列

处理有关联的表格，需要注意的地方

异常值: 不规范数值及错误值

缺失程度: 每个feature的缺失率

数据分布:

... ...

1. 重复行/列：

以header = None, 不指定index_col的方式导入数据。pandas会把重复column names自动重新编码，见本链接42条
检查是否存在重复行/列名
检查有重复行/列名的行/列，是否完全一致
> 如果完全一致，考虑只保留一行/列
> 如果不完全一致，需与数据提供方核实，考虑删除或合并
对删除或合并行/列的操作做好记录。
代码参考: df.duplicated()

2. 处理有关联的表格，需要注意的地方

有关联的表格，比方说OTU table和样本电子病历表格。一个是样本的微生物组数据，一个是样本的疾病信息。样本ID将两个表格关联在一起。
以上为例，则两个表格的样本ID必须完全一致。
检查有关联的表格，关联ID（key）是否完全一致。整理出一致和不一致的部分，与数据提供方核实。
重复行/列可能对关联造成影响，先解决重复行/列问题的问题。

3. 异常值

检查不规范异常值：
> 每列数据是否为统一数据类型：连续型变量列中是否存在string；检查分类型变量中是否存在int/float等。
> 例如本应该为NA的值被填充为空格, _, -,\,/, 无等
> 例如0.45误填充为0,45导致变成string；例如个别数值型变量被加上了单位变成string
> 是否确为误填需与数据提供方核实
检查错误值
> 如身高体重数值夸张，男性患者病史中有子宫肌瘤等不合常识及逻辑的错误。
> 有些feature由其它列计算得到，比如BMI由身高体重计算得到。可以核对是否正确。
> 需要注意有些病例或生活习惯信息，一些患者的病理指标远远超出平均范围，可能是疾病导致，并不是错误值。
> 有必要时，让数据提供方提供一套正常值范围，包括连续型变量的正常范围，分类型变量包括的所有类别。
> 无法修正的异常值填为空值。做好修正记录。

4. 缺失值

拿到数据后概览一下raw data的缺失情况。方法参考本链接第8条
将异常值处理好后，再处理缺失值。
设置一个cutoff，大概50%-70%，视情况而定。去除缺失率超过cutoff的feature。将留下的features填充缺失值。
填充缺失值有很多种方法，均值，0，knn, 或者直接NA
记录删除的features，对填充缺失值的feature做好记录。

5. 数据分布

概览raw data的数据分布情况。方法参考本链接第8条
将重复行/列，异常值，缺失值等问题处理好后，查看数据各feature的分布情况，可以制图或表。

6. to be continued...

猜你喜欢

转载自blog.csdn.net/weixin_33912453/article/details/90840673

数据处理备忘清单

SLAM数据处理小程序备忘

数据预处理备忘

Oracle——数据处理

数据处理

海量数据处理

大数据处理

RocketMq数据处理

json数据处理

数据处理函数

R 数据处理

数据处理(转)

pandas 数据处理

线程的数据处理

python数据处理

数据处理练习

GPS数据处理

异步数据处理

数据处理概论

Python --数据处理

Excel数据处理

python的数据处理

typeahead 数据处理

pandas数据处理

XGBOOST 数据处理

SRCNN的数据处理

excel及数据处理

ETL数据处理

Gis数据处理

数据处理与转换

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

《Python 编程-从入门到实践》11-1~11-3

关于Numpy+TensorFlow+PyTorch构造NN的总结

【原创达人】制作WINPE启动盘心得

英文图片文字识别（提取）

2022cma看片网站给一个你懂的

二叉搜索树的实现（BST）（插入+删除+查找+各种遍历+高度）

搬家通知博文地址(将博客搬到CSDN)

asfd

解决错误：MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk

如何注册微信个人小程序

每日归档

更多

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)