R语言数据清洗

编程语言 2018-04-23 21:50:34 阅读次数: 7

R语言数据清洗

一般来说，在获得了原始数据之后，不能直接开始进行统计分析等操作。因为通常我们获得的数据都是「脏」数据，在分析之前需要进行数据的清洗。对于清洁的数据（tidy data）的定义为：
- 每个变量各占一列
- 每个观测值各占一行
- 每个表格或者文件只储存一种观测值的数据
对于数据清洗，Python中著名的pandas包可以进行十分方便的处理（[具体可见这篇博文]）。而在R中，也有dplyr包以及tidyr包用来进行数据的整理。

dplyr包

dplyr包的作者是著名的ggplot2包的Hadley Wickham。这个包主要针对数据框（dataframe）进行数据的清洗和整理。dplyr包主要有以下几个函数：
1. 选择：select()
2. 筛选：filter()
3. 排序：arrange()
4. 分组：group_by()
5. 汇总：summarise()
6. 变形：mutate()
这几个函数的具体用法及其例子，在优秀博文：「[【R语言】必学包之dplyr包]」（作者：Kingsley W）中做了详细的介绍。

tidyr 包

这个包的作者也是Hedley Wickham，其主要的几个函数为：
1. 长宽数据的转换：gather（）、spread()
2. 数据的合并：unit()
3. 数据的分离：separate()
具体用法以及示例，可以参考一下的几篇博文：
1. [tidyr之gather、separate、spread…]
2. [缺失值,表整理—tidyr包]

在Rstudio上，有一份文档进行了很好的总结：
这里写图片描述

猜你喜欢

转载自blog.csdn.net/weixin_40466280/article/details/80057071

R语言数据清洗

R语言-数据清洗-缺失值处理

R语言- 实验报告 - 数据清洗

R 数据清洗（一）

R语言笔记——回顾小结（数据清洗，建模简单流程）

R语言入门：处理缺失值和数据清洗

基于R语言的数据处理及清洗简单汇总

使用R进行数据清洗

利用R进行脏数据清洗

R-数据清洗(附代码,图片)

手把手教你用R处理常见的数据清洗问题（附步骤解析、R语言代码）

数据清洗整理基本操作（R：dplyr、tidyr、lubridate）

生态经济学领域里的R语言机器学（数据的收集与清洗、综合建模评价、数据的分析与可视化、数据的空间效应、因果推断等）

临床数据库挖掘系列3-手把手教你使用R语言对seer数据库清洗

数据挖掘与R语言

R语言-数据框

R语言数据排序

R语言数据重塑

R语言的数据帧

R语言--数据框

R语言--编数据

R语言数据筛选

R语言数据排序

R语言数据的读写

R语言数据框

R语言缺失数据

R 语言数据导入

[PowerQuery] 数据清洗的底层语言-M语言的编辑界面

数据清洗

清洗数据

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)