R语言学习01——introduction、基本语法和数据输入

数据基本知识

  • dataset 数据集,由具有观测值的记录组成
  • observation 记录,赋予特定变量值的变量组成
  • variable 对象的特征变量
  • subject or element 主题,一种对象,例如学生对象
    (看来还得复习数据挖掘)

R的介绍——brief introduction

  • R是实现数据统计和可视化的语言
  • 最重要是开源的,有很多免费的包,大大降低了各类模型实现的成本。还是建议写Rbase,调用各种包确实能够提高效率,但是也造成自己没有核心竞争力,所以还是好好搬砖吧!
  • GNU环境

维基百科描述
是自由软件的许可证,终端用户可以修改,执行,分享软件。

  • 最常用的包有:学的还是比较浅,只要学习R语言,利用R语言实现数据的可视化,必然会提ggplot2!!!

基本语法

  • 科学计算:+,-,*,/,^ ,sqrt(),%/%——整除,%%——求余
  • 赋值符号:<-或者是=
    a<-5
  • 变量的命名规则,对大小写敏感变量名可由字母、数字、下划线和小数点组成,但是数字和下划线不能是变量名的开始部分。(还有一些内置的常量不能使用命名,例如LETTERS,letters,month.add,month,name等)

读取数据

读取本地数据

  • read.table()
    默认header=FALSE,sep="",na.strings=“NA”,quote="""
  • read.csv()
    读取逗号文件
  • 读取大数据
    当需要读取的数据较大的时候,使用read.table()和read.csv()耗时较大,我们采用data.table包里面的fread()方法来帮助读取较大的数据。

读取线上数据(后面会有一个小task)

  • 创建存储数据的目录
dir.name<-'D:/Rcode/Datasets'
dir.create(dir.name)
setwd(dir.name)
  • 下载cURL
    http和https的区别:简单讲https就是http的安全版本,加密的详细内容需要SSL,https需要到ca申请证书。当从https网站上下载数据时我们就需要使用cURL。
    curl下载地址
    把curl的路径放进R的搜索路径
old.env<-Sys.getenv("Path")
curlpath<-'C:/Program Files/R'
env<-paste(old.env,curlpath,sep=';')
Sys.setenv(Path=env)

R里面的目录路径用的是slash

url是统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁表示,是互联网上标准资源的地址。互联网上的每一个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器怎样处理它。

  • 现在我们可以通过使用curl方法来下载htpps协议下的数据了
download.file(url,destfile,method)

猜你喜欢

转载自blog.csdn.net/can0227/article/details/82783926
今日推荐