版权声明:觉得还行的话,右上角点个赞哟。 https://blog.csdn.net/u014384314/article/details/87277644
1. 流处理的对比
spark2引入structStreaming,在流表上统一了sql api,但是受限比较大。
2.切入点
spark2 引入sparkSession 统一了sqlcontext和hivecontext
3.spark2兼容spark1的所有算子,将DF整合到了dataset
4.在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准 ,支持子查询,对常用的SQL操作和DataFrame,性能有2-10倍的提升。
5.mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑,提供更多的 R 语言算法,默认使用 Scala 2.11 编译与运行。
6.较spark1.6稳定性稍低,小版本差异带来的依赖问题偏多。
7.集群提交
spark2-submit --class com.........