【读书笔记】《R语言实战》Day1

R中的数据集

数据集的概念:数据集是由数据构成的一个矩形数组。统计学家称数据集的行为观测,列为向量;数据库分析师称数据集的行为记录,列为字段;数据挖掘/机器学习的研究者则称其为示例和属性。数据集包括数据结构、内容和数据类型。

R语言常用的数据结构包括标量、向量、数组、数据框和列表,可以处理的数据类型包括数值型、字符型、逻辑型、复数型(虚数)、原生型(字节)。

向量

定义:向量是用于存储数值型、字符型或逻辑型数据的一维数组

使用方式:R中用函数c()来创建向量,数值型:a<-c(1,2,3,4,5,6)   字符型:b<-c("one","two","three")  逻辑型:c<-c(TRUE,FALSE,TRUE)

注意:单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型),同一向量中无法混杂不同模式的数据

访问元素:通过在方括号中给定元素所处位置的数值,可以访问向量中的元素。例如a[c(2,4)]

矩阵

定义:矩阵即二维数组,每个元素都是相同的数据类型。

使用方式:用函数matrix()来创建矩阵,例如mymatrix<-matrix(vector(元素),nrow=行数,ncol=列数,byrow=填充方式,dimnames=list("行名","列名"))

注意:函数中各属性赋值时引号的使用

访问元素:通过下标和方括号来选择行、列或者元素

数组

定义:数组与矩阵类似,但是维度可以大于2

使用方式:用函数array()来创建数组,例如myarray<-array(数据,维度下标最大值,各维度名称)

访问元素:通过下标和方括号

数据框

定义:数据框可以包含不同类型的数据,类似于数据库中的二维表,也是最常用到的数据结构

使用方式:用函数data.frame()创建,例如mydataframe<-data,frame(col1,col2,col3,......)

访问元素:下标、列名、用$选取数据框中的某个特定变量

注意:列连表常用函数包括attach(),detach(),with()

    attach():将数据框添加到搜索路径中,局限是对于多个相同名称的变量无能为力

    dettach():将数据库从搜索路径中移除

    with():可以消除多个相同名称变量带来的影响,但局限是赋值只能在函数括号内生效,解决方式是用<<-代替<-

    row.name用于定义数据框的实例标识符

因子

定义:类别(名义型)变量和有序类别(有序型)变量在R中称为因子

使用方式:函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1...k],同时一个由字符串(原始值)组成的内部向量将映射到这些整数上

   myfactor<-factor(myfactor,order=,levels=)

列表

定义:列表是一些对象的有序集合,其可以允许整合若干对象到单个对象名下

使用方式:mylist<-list(name1=obj1,name2=obi2....)

访问方式:双重方括号,例如mylist[[2]]


 


 




猜你喜欢

转载自blog.csdn.net/SteveYinger/article/details/50998331