接上篇student表
也就是在pyspark中可以有两种方式:1,agg(汇总) 2,sql语句 查询
接着实现自定义函数
(1)这是用concat()函数将两个连接不是自定义的
(2)用自定义函数实现连接(sql 方式)
如果在查询语句时需要复杂的编程,需要定义函数,上方是sql方式调用自定函数sqlContext-----------下边注册函数(registerFunction,spark是sqlsession 下边没有)
另一种方式,不用sql自定义注册:
spDf.na.fill({'列名1':0,'列名2':0})----------这个方法函数列如果值是空值fill用0添充,缺失值的添充是datafram下面的一个na的添充方法fill
去除重复函数:
看下去除重复后的效果(1)
(2)第二种去除重复
datafram中删除空值:df.na.drop().show()