SparkSQL(四)DataFrame基本API的操作

1.DataFrame数据来源

参考官网:http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets-and-dataframes

   加载dataframe数据

val spark=SparkSession.builder().appName("DataFrameApp").master("local[2]").getOrCreate()
//将json文件加载为一个dataframe
val peopleDF= spark.read.format("json").load("datas/people.json")

2.基本API的操作

(1)printSchema:输出dataframe对应的schema信息

peopleDF.printSchema()

(2)show:输出dataframe的前20条记录

peopleDF.show()

(3)select:查询某列所有的数据

peopleDF.select("name").show()

(4)col:返回某一列的列名

//查询某几列的说有数据,并对列进行计算
peopleDF.select(peopleDF.col("name"),(peopleDF.col("age")+10).as("age2")).show()

(5)filter:根据某一列的值进行过滤

peopleDF.filter(peopleDF.col("age")>19).show()

(6)groupBy:根据某一列进行分组,然后行进聚合操作

peopleDF.groupBy("age").count().show()

猜你喜欢

转载自blog.csdn.net/u010886217/article/details/82917238
今日推荐