spark的DataFrame常用操作

版权声明:版权声明中 https://blog.csdn.net/lds_include/article/details/89305775

spark的DataFrame常用操作

DSL风格语法

  • 查看DataFrame中的内容
personDF.show
  • 查看DataFrame部分列中的内容
personDF.select(personDF.col("name")).show
personDF.select(col("name"), col("age")).show
personDF.select("name").show
  • 打印DataFrame的Schema信息
personDF.printSchema
  • 查询所有的name和age,并将age+1
personDF.select(col("id"), col("name"), col("age") + 1).show
personDF.select(personDF("id"), personDF("name"), personDF("age") + 1).show
  • 过滤age大于等于18的
personDF.filter(col("age") >= 18).show
  • 按年龄进行分组并统计相同年龄的人数
personDF.groupBy("age").count().show()

SQL风格语法

  • 如果想使用SQL风格的语法,需要将DataFrame注册成表
personDF.registerTempTable("t_person")
  • 查询年龄最大的前两名
sqlContext.sql("select * from t_person order by age desc limit 2").show
  • 显示表的Schema信息
sqlContext.sql("desc t_person").show

猜你喜欢

转载自blog.csdn.net/lds_include/article/details/89305775