本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。
即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。
新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。
PySpark 还为教学和可调试性的所有操作引入了热切的评估模式(eager evaluation mode)。
Spark on K8S 支持 PySpark 和 R ,支持客户端模式(client-mode)。
Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪(schema pruning)。
支持 Scala 2.12。
关注 iteblog_hadoop 公众号,并回复 spark24 获取本文 PPT。
欢迎关注本公众号:iteblog_hadoop:
回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT
0、回复 电子书 获取 本站所有可下载的电子书
2、Elasticsearch 6.3 发布,你们要的 SQL 功能来了
3、Spark Summit North America 201806 全部PPT下载[共147个]
4、干货 | 深入理解 Spark Structured Streaming
5、Apache Spark 黑名单(Blacklist)机制介绍
6、Kafka分区分配策略(Partition Assignment Strategy)
8、干货 | Apache Spark 2.0 作业优化技巧
10、干货 | 如何使用功能强大的 Apache Flink SQL
11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档: http://flink.iteblog.com 13、Carbondata 中文文档: http://carbondata.iteblog.com