RDD和DataFrame的区别

1.RDD在创建之后,你知道有这个类,但是你不知道他的内部结构的,DataFrame是以列式存储,它有schema是可以知道的。

2.DataRrame比RDD的执行效率要高一点,因为在大数据的处理中,RDD即使用mappartition或者foreachRDD都要消耗不少的core,但是DataFrame他可以进行sql操作,先过滤掉一部分数据,在RDD中是不好实现的。

3.SpakSQL在执行的时候是有底层优化的

具体了解可以借鉴这篇文章https://www.jianshu.com/p/c0181667daa0

猜你喜欢

转载自blog.csdn.net/qq_42064119/article/details/83932304