Spark介绍(六)SparkR

一、SparkR简介

SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中,SparkR实现了分布式的data frame,支持类似查询、过滤以及聚合的操作(类似于R中的data framesdplyr),但是这个可以操作大规模的数据集

                                    

DataFrame是数据组织成一个带有列名称的分布式数据集,R语言中的data frame类似,需先配置SparkContextSQLContext

sc<-sparkR.init() 
sqlContext<-sparkRSQL.init(sc)

构造DataFrame的方式有很多

1通过本地data frame构造,createDataFrame(sqlConetx,data frame)

2通过Data Sources构造:JSONParquet文件等;

3通过Hive tables构造,创建HiveContext

猜你喜欢

转载自blog.csdn.net/kxiaozhuk/article/details/82699625