R语言数据清洗

R语言数据清洗

一般来说,在获得了原始数据之后,不能直接开始进行统计分析等操作。因为通常我们获得的数据都是「脏」数据,在分析之前需要进行数据的清洗。对于清洁的数据(tidy data)的定义为:
- 每个变量各占一列
- 每个观测值各占一行
- 每个表格或者文件只储存一种观测值的数据
对于数据清洗,Python中著名的pandas包可以进行十分方便的处理([具体可见这篇博文])。而在R中,也有dplyr包以及tidyr包用来进行数据的整理。

dplyr包

dplyr包的作者是著名的ggplot2包的Hadley Wickham。这个包主要针对数据框(dataframe)进行数据的清洗和整理。dplyr包主要有以下几个函数:
1. 选择:select()
2. 筛选:filter()
3. 排序:arrange()
4. 分组:group_by()
5. 汇总:summarise()
6. 变形:mutate()
这几个函数的具体用法及其例子,在优秀博文:「[【R语言】必学包之dplyr包]」(作者:Kingsley W)中做了详细的介绍。

tidyr 包

这个包的作者也是Hedley Wickham,其主要的几个函数为:
1. 长宽数据的转换:gather()spread()
2. 数据的合并:unit()
3. 数据的分离:separate()
具体用法以及示例,可以参考一下的几篇博文:
1. [tidyr之gather、separate、spread…]
2. [缺失值,表整理—tidyr包]


在Rstudio上,有一份文档进行了很好的总结:
这里写图片描述
这里写图片描述

猜你喜欢

转载自blog.csdn.net/weixin_40466280/article/details/80057071