R语言数据处理简述

数据分析主要分为六个过程:

  1. 数据获取
  2. 数据处理
  3. 数据统计
  4. 数据建模与挖掘
  5. 数据可视化
  6. 数据结果报告

数据处理则是第二步,也是最繁琐的一步,多数时间消耗在这步。数据处理影响数据分析结果的准确性。

数据处理按三个部分讲述。

  1. 首先,介绍数据的缺失值检测与处理、异常值检测与处理。
  2. 其次,介绍变量级别的数据处理。
  3. 最后,介绍文件级别的数据处理。

本文作为综述,不再具体介绍相关内容。以数据的查看方式作为结尾。

数据查看帮助我们了解数据对象的结构、长度、维度、变量类型等。

相关函数如下:

函数 功能
length() 显示对象中的元素/成分的数量
dim() 显示对象维度
str() 显示对象结构
class() 显示对象的类或类型
names() 显示对象中各成分的名称
head() 显示对称开头部分
tail() 显示对象结尾部分

我们以R语言自带的鸢尾花数据集iris做为例子,示例如下:

#查看iris的元素
length(iris)
[1] 5
#查看iris的维度
dim(iris)
[1] 150   5 
#查看iris的数据结构
str(iris)
'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
#查看iris的类型
class(iris)
[1] "data.frame"
#查看iris对象中成分名称
names(iris)
[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species"     
#查看iris数据集前5行
head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
#查看iris数据集倒数前5行
tail(iris)
    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
145          6.7         3.3          5.7         2.5 virginica
146          6.7         3.0          5.2         2.3 virginica
147          6.3         2.5          5.0         1.9 virginica
148          6.5         3.0          5.2         2.0 virginica
149          6.2         3.4          5.4         2.3 virginica
150          5.9         3.0          5.1         1.8 virginica

head()、tail()函数默认显示5行数据。可以指定显示几行数据,如head(iris,10)显示前10行数据。

发布了38 篇原创文章 · 获赞 13 · 访问量 3307

猜你喜欢

转载自blog.csdn.net/renewallee/article/details/102850963
今日推荐