R语言介绍及基本概念

1. R语言介绍
R是一种为统计计算和绘图而生的语言和环境,是一套开元的数据分析解决方案,最主要特点是:
1)开源
2)几乎任何类型的数据分析工作用R可以完成
2.R基本概念
用R来处理数据,首先需要了解数据结构,数据结构说白了就是用于存储数据的结构。R总共是5中数据结构:向量、矩阵、数组、数据框、列表。这5个包含范围逐渐扩大,如多个向量可以组成矩阵。
1)向量
存储数值、字符、逻辑型的一维数组,使用函数c()可以创建。
注意:单个向量中的数据必须拥有相同的类型或模式,不同向量中无法混杂不同模式的数据。如:
在这里插入图片描述
在这里插入图片描述
2)矩阵
矩阵是二维数组,每个元素拥有相同模式,也就说每列数据模式相同。创建矩阵函数matrix()。
在这里插入图片描述
3)数组
数组为数可以大于2维,使用array()创建。
在这里插入图片描述
4)数据框
数据框是R中最常用到的数据结构,不同的列可以包含不同类型的数据,但是同一列的数据格式必须唯一。
数据框通过data.frame()创建。
在这里插入图片描述
访问数据框中某列数据,使用符号美元符号,如dim$dim1。
这样比较麻烦,可以使用attach(dim),即可将数据框添加到R的搜索路径中,然后就可以直接使用列名获取该列数据。如下图:
在这里插入图片描述
一种好习惯当不用dim数据框市,将路径从R中移除,即ditach(),虽然移除该路径并不一定必要。
注意:若两个数据框名称相同,都加入到路径中,则原始数据具有优先权。
在这里插入图片描述
为了避免此情况,可以使用with指定具体数据框。
在这里插入图片描述
5)因子
类别变量和有序变量在R中成为因子,类别变量和有序变量都是分类变量,不同的是一个有顺序一个无顺序,类别仅仅是分类,并无顺序之分,如足球鞋、篮球鞋等,有序变量有顺序之分,如:青年、少年等。
函数factor()以一个整数向量的形式存储类别值。使用该方法可以在以后做机器学习时,对一些字符型数据进行向量化。
1、对于无序型分类变量
若小A、小B、小C、小D无序
在这里插入图片描述
2、对于有序型分类变量
若小A、小B、小C、小D有序
在这里插入图片描述
6)列表
列表是个大杂烩,将以上描述的都可以组合到一起,使用函数list()创建。
用的地方不太多,故不做赘述。

猜你喜欢

转载自blog.csdn.net/daydayup8888/article/details/89297334