数据框是仅次于向量的最重要的数据对象类型,是R语言中最常处理的数据结构。由于数据有多种数据类型,所以无法将此数据集放入一个矩阵。在这种情况下,数据框是最佳选择
- 可以将不同的数据类型组合在一起的数据结构
- 每一列存储数据的类型必须相同
- 每列的行数(长度)必须相同
创建数据框
- 数据框是仅次于向量的最重要的数据对象类型
- 在实际操作中,通常会用数据框的一列代表某一变量属性的所有取值,用一行代表某一样本数据
- data.frame函数可以直接把多个向量建立为一个数据框,并为列设置名称
- 也可以通过names(<数据框>)来读取并编辑列名称
数据框索引
数据框索引和矩阵类似,主要有:
- 下标索引
- 行或列的索引
- 元素索引
- 使用$符号按名称索引列数据(某个特定变量)
- subset函数按条件索引
- sqldf包中的sqldf函数使用sql语句索引
数据框编辑
数据框可以通过edit函数和fix函数手动修改
rbind函数和cbind函数分别增加新的样本数据和新属性变量
(需要注意的是,rbind函数的自变量的宽度(列数)应该与原数据框的宽度相等,而cbind函数的自变量的高度(行数)应该与原数据框的高度相等,否则程序将会报错)
names函数可以读取数据框的列名以进行修改操作