spark2 对比spark1

版权声明:觉得还行的话,右上角点个赞哟。 https://blog.csdn.net/u014384314/article/details/87277644

1. 流处理的对比

spark2引入structStreaming,在流表上统一了sql api,但是受限比较大。

2.切入点

spark2 引入sparkSession 统一了sqlcontext和hivecontext

3.spark2兼容spark1的所有算子,将DF整合到了dataset

4.在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准 ,支持子查询,对常用的SQL操作和DataFrame,性能有2-10倍的提升。

5.mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑,提供更多的 R 语言算法,默认使用 Scala 2.11 编译与运行。

6.较spark1.6稳定性稍低,小版本差异带来的依赖问题偏多。

7.集群提交

spark2-submit --class com.........

猜你喜欢

转载自blog.csdn.net/u014384314/article/details/87277644