【Spark】Spark2.x版的新特性 - 代码天地

【Spark】Spark2.x版的新特性

其他 2018-06-19 11:55:41 阅读次数: 2

一、API

1. 出现新的上下文接口：SparkSession，统一了SQLContext和HiveContext，并且为SparkSession开发了新的流式调用的configuration API

2. 统一了DataFrame和DataSet。DataFrame相当于DataSet[Row]，以及DataSet的增强聚合API

3. 增强了累加器accumulator的功能，支持Web UI，便捷的API，性能更高

二、SQL

1. 支持SQL2003标准

2. 支持ansi-sql 和hive ql的sql parser(SQL解析器)

3. 支持DDL，支持子查询（in/not in 、 exists/ not exists）

三、性能

1. 通过whole-stage-code generation（全流程代码生成）技术将SparkSQL和DataSet的性能提升了2~10倍。（在下一篇博文中会浅谈全流程代码生成技术）

2. 通过vectorization(向量化)技术提升parquet文件的扫描吞吐量

3. 提升orc文件的读写性能

4. 提升catalyst查询优化器的性能

5. 通过native实现方式提升窗口函数的性能

四、 Spark Streaming

1. Structured Streaming在Spark2.0中是测试版，2.0之后是released版，它基于SparkSQL和Catalyst引擎构建，支持DataFrame风格的API进行流式计算。

2. 基于DStream的API支持kafka0.10版本

五、Spark MLlib

1. 基于DataFrame的API支持持久化保存、加载模型、Pipeline，支持更多的算法，支持向量和矩阵使用性能更高的序列化机制。

2. Spark R支持MLlib算法，包括线性回归、朴素贝叶斯等

3. 未来Spark MLlib将主要基于DataSet API来实现，基于RDD和API将转为维护阶段

六、Other

1. 支持csv文件

2. 支持hive风格的bucket表

3. 支持缓存和程序运行的堆外内存管理

4. 完全移除了对akka的依赖

5. 使用Scala2.11代替了Scala2.10，要求基于Scala2.11版本进行开发，而不是Scala2.10

6. Mesos粗粒度模式下，支持启动多个Executor

猜你喜欢

转载自blog.csdn.net/xin93/article/details/80697004

【Spark】Spark2.x版的新特性

Spark2.X 集群安装（原生版详细）

Spark2.x安装配置

Spark2.x学习笔记（转载）

Spark2.X 傻瓜教程

Spark2.X管理与开发

Spark2.x RPC解析

Spark2.x 与 Spark1.x 关系

spark开发环境——本地安装spark2.x及启动

Spark2.x学习笔记：Spark SQL快速入门

Spark2.x学习笔记：Spark SQL的SQL

Spark2.x学习笔记：5、Spark On YARN模式

Spark2.x写Hbase1-2.x

Spark2.x学习笔记：2、Scala简单例子

Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

Spark2.X 分布式弹性数据集

Spark2.x基于Intellij IDEA开发

Spark2.x基于Zookeeper的高可用配置

Spark2.X读取多种文件格式数据

Spark2.x 内存管理之---OFF_HEAP

hdp2.4集成spark2.X

spark2.x任务提交过程

Spark2.x 机器学习视频教程

Spark2.X环境准备、编译部署及运行

Spark2.x精通：ShuffleReader过程源码深度剖析

Spark2.x精通：BlockManager原理剖析

Spark2.x精通：BlockManagerMaster源码剖析

Spark2.x精通：Checkpoint源码深度剖析

Spark2.x精通：Executor端BlockManager源码剖析

Spark2.x精通：CacheManager源码深度剖析

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)