【spark】四 DataFrame.distinct()操作也应当优化为RDD操作

版权声明:转载请标明出处。 https://blog.csdn.net/u010720408/article/details/89524749

最好可以用RDD的就不要用DataFrame

今日就遇到执行出现 Driver崩了,怀疑是DataFrame不够,仅测试再distinct()上,DataFrame爆了,而RDD的可以

测试数据 一亿两千万条,仅此记录

#### 结论:能用RDD的相关操作,就别用DataFrame,比如排序、统计count、distinct等等都要替换为RDD的

猜你喜欢

转载自blog.csdn.net/u010720408/article/details/89524749