sparksql(2)

接上篇student表


也就是在pyspark中可以有两种方式:1,agg(汇总)  2,sql语句  查询

接着实现自定义函数

(1)这是用concat()函数将两个连接不是自定义的


(2)用自定义函数实现连接(sql 方式)



如果在查询语句时需要复杂的编程,需要定义函数,上方是sql方式调用自定函数sqlContext-----------下边注册函数(registerFunction,spark是sqlsession 下边没有)

另一种方式,不用sql自定义注册:


spDf.na.fill({'列名1':0,'列名2':0})----------这个方法函数列如果值是空值fill用0添充,缺失值的添充是datafram下面的一个na的添充方法fill

去除重复函数:


 看下去除重复后的效果(1)

(2)第二种去除重复


datafram中删除空值:df.na.drop().show()





猜你喜欢

转载自blog.csdn.net/baiyan_er/article/details/80026202