R语言基础-向量运算及R的数据结构(二)

一、数据框

1.数据框是一种表格式的数据结构。数据框旨在模拟数据集,与其他统计软件SAS或者SPSS中的数据集的概念一致。数据集通常是由数据构成的一个矩形数组,行表示观测,列表是变量。
2.数据框实际上是一个列表。列表中的元素是向量,这些向量构成数据框的列,每一列必须具有相同的长度,所以数据框是矩形结构,而且数据框的列必须命名。每一列必须是同一数据类型,行可以不同。

1.创建数据框,例如:

2.数据框中内容的查询与列表类似。

3.两种列内容的查询方式

二、因子

1.变量分类

名义型变量
有序型变量
连续型变量

2.因子,在R中名义型变量和有序型变量称为因子,factor。这些分类变量的可能值称为一个水平。由这些水平值构成的向量就称为因子。

3.因子的应用

计算频数、独立性检验、相关性检验、方差分析、主成分分析、因子分析...

将向量转换为因子:

四、缺失数据
1.在R中,NA代表缺失值,NA是不可用的意思,用来存储缺失信息。

2.在计算中有如下属性:

3.数据集中缺失值的查询方式,以sleep数据集为例:

4.删除缺失值:

如果直接处理矩形数据集会删掉包含 NA 的行。

5.其他缺失数据:

NaN,代表不可能的值
Inf表示无穷

五、字符串的处理
1.统计字符串长度

2.合并字符型元素

3.提取字符串

4.分割字符串

5.字符型向量的合并

六、日期和时间
1.时间序列

时间数据 m
as.Date(m,format)函数
常见的:月日年格式 as.Date(m,format = "%B%d%Y")
加入星期 as.Date(m,format = "%B%d%Y%A")
输出系统时间 Sys.time()

2.将字符串转换成POSIXct/POSIXlt时间格式

as.POSIXct("March-17-2020 17:00:00",format = "%B-%d-%Y %H:%M:%S")

猜你喜欢

转载自www.cnblogs.com/nnadd/p/12503590.html