Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

过往记忆大数据 过往记忆大数据
本文资料来自 2019-03-28 在旧金山举办的 Strata Data Conference,详情请参见 https://conferences.oreilly.com/strata/strata-ca/public/schedule/detail/72637。分享者来自数砖著名的范文臣和李潇两位大佬

本次分享包括了对 Apache Spark 2.4 回顾以及对 Apache Spark 3.0 的展望。Apache Spark 2.4 版本是 2.x 系列的第五个版本,此版本的主要特性包括以下几点:

  • 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
  • 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
  • 新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。
  • PySpark 还为教学和可调试性的所有操作引入了热切的评估模式(eager evaluation mode)。
  • Spark on K8S 支持 PySpark 和 R ,支持客户端模式(client-mode)。
  • Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
  • 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪(schema pruning)。
  • 支持 Scala 2.12。
    更多关于 Apache Spark 2.4 的东西请参见《Apache Spark 2.4 正式发布,重要功能详细介绍》。
    Apache Spark 3.0 也包含了许多重要的特性,比如 GPU 感知调度(GPU-aware Scheduling,详细请参见 《Apache Spark 3.0 将内置支持 GPU 调度,文末有福利》) 、Spark Graph 图的增强、Data Source API V2、自适应执行(Adaptive Execution,详细请参见《Adaptive Execution如何让Spark SQL更高效更好用?》、Apache Spark SQL自适应执行实践https://www.iteblog.com/archives/2319.html)、 支持 Hadoop 3.x、支持 Hive 2.3.4、Scala 2.12 GA、更好的ANSI SQL合规性、PySpark 可用性进一步提升等。当然,这仅仅是简单地介绍了 Apache Spark 3.0 的特性,冠以 Spark 3.0 更详细的介绍请参见04月23-25日在旧金山举办的Spark+AI Summit 2019!,下图是 Apache Spark 3.x 的新架构图。

Apache Spark 2.4 回顾以及 3.0 展望
好了,废话不多说了,下面是本次会议的PPT全文,关注 Hadoop技术博文 公众号,并回复 spark-3 获取本文PPT。

Apache Spark 2.4 回顾以及 3.0 展望
Apache Spark 2.4 回顾以及 3.0 展望
Apache Spark 2.4 回顾以及 3.0 展望
Apache Spark 2.4 回顾以及 3.0 展望
Apache Spark 2.4 回顾以及 3.0 展望
Apache Spark 2.4 回顾以及 3.0 展望

猜你喜欢

转载自blog.51cto.com/15127589/2678466