一、SparkR简介
SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中,SparkR实现了分布式的data frame,支持类似查询、过滤以及聚合的操作(类似于R中的data frames:dplyr),但是这个可以操作大规模的数据集。
DataFrame是数据组织成一个带有列名称的分布式数据集,和R语言中的data frame类似,需先配置SparkContext和SQLContext:
sc<-sparkR.init()
sqlContext<-sparkRSQL.init(sc)
构造DataFrame的方式有很多:
1通过本地data frame构造,createDataFrame(sqlConetx,data frame);
2通过Data Sources构造:JSON和Parquet文件等;
3通过Hive tables构造,创建HiveContext