大数据(三十八)机器学习【机器学习语言---R语言小试牛刀】

安装完R语言和RStudio后,我们便可以开始小试牛刀了。

一、打开RStudio

打开后如下图所示

我们现在桌面建文件夹r_workspace,再按下图所示将工作空间切换至桌面r_workspace下

二、R数据介绍

R语言数据结构(6种):
• 向量

     R的基本数据结构式向量。向量存储一组有序的值,称为元素

     一个向量可以包含任意数量的元素。然而,所有的元素必须是一样的类型,比如,一个向量不能同时包含数字和文本。

     R中的向量有固有的顺序,所以其数据能通过计算向量中各元素的序号来访问,序号是从1开始

• 因子

     因子是向量的一个特例, 它单独用来标识名义属性

     为什么不用character字符型向量呢?

     把字符型向量转换成因子,只需要应用factor()函数

• 列表

     一种特殊类型的向量--列表,它用来存储一组有序的值
     列表允许收集不同类型的值
     用列表构建”对象”进行访问

• 数组

• 数据框

     机器学习中使用的最重要的R数据结构就是数据框,因为它既有行数据又有列数据,所以它是一个与电子表格或数据库相类似的结构

     新的参数stringAsFactors = FALSE

     提取其中的整个向量数据,就如列表提取一个元素那么简单,通过名字

     数据框是二维的,格式为“[rows, columns]”也可以提取数据

• 矩阵

三、开始实战

我们在console下输入下方命令。

1、定义x=1,随后打印出x

> x=1
> x
[1] 1
2、定义y=2,执行x+y

> y=2
> x+y
[1] 3

3、定义z=3,将x、y、z存入文件mydata.RData中。

> z = 3
> save(x,y,z, file="mydata.RData")

此时打开桌面r_workspace文件夹,你会发现里面有mydata.RData文件

4、我们关闭RStudio后位于内存中的x、y、z将不复存在。由于第三步我们将其存储在了mydata.RData中,当我们重启RStudio后可以通过下方命令重新加载x、y、z

> load("mydata.RData")
> x
[1] 1
> y
[1] 2
> z
[1] 3

5、用CSV文件导入和保存数据

先准备cvs文件如下

subject_name,temperature,flu_status,gender,blood_type
John Doe,98.1,FALSE,MALE,O
Jane Doe,98.6,FALSE,MALE,AB
Steve Graves,101.4,TRUE,FEMALE,A
 
执行下方命令导入cvs文件

> pt_data <- read.csv("pt_data.csv", stringsAsFactors=FALSE)
> View(pt_data)
执行View(pt_data)后,我们可以看到如图所示

我们还可以用下方语句导入cvs文件

> pt_data2 <- read.csv("pt_data.csv", stringsAsFactors=FALSE,header=FALSE)
> View(pt_data2)
执行View(pt_data2)后,我们可以看到如图所示

我们可以看到加了header=FALSE后,R会将第一行也当做数据处理。


猜你喜欢

转载自blog.csdn.net/jintaohahahaha/article/details/78837123
今日推荐