Apache Spark 未来：Spark 3.0 预览

本文资料来自2019-03-24在上海举办的 Hadoop+Spark生态技术开放日。参见：https://cloud.tencent.com/developer/salon/salon-1114。

分享者：邵赛赛，腾讯云专家工程师。Apache Spark 以及 Apache Chukwa 的 Committer，Apache Livy PMC。

Apache Spark 从诞生之初到现在已经有了9个年头，从最初的学术界新星，到工业界的宠儿，再到现在的大数据处理不二之选，Spark从底层到上层经过了多次的重构和改进，不断引领当今大数据处理的风潮。

现如今，随着人工智能，深度学习，实时计算的普及以及广泛应用，将大数据处理从原先的简单处理推向了更快、更深度、更智能的层次，如何将大数据和人工智能更好的结合，如何在人工智能的当下进一步发展Spark，Spark又如何将面临新的挑战?

本次演讲将从Spark的过去、现在和将来三个部分介绍Spark的历史演变，现在的架构以及未来的方向。同时着重介绍Spark未来如何与深度学习更好的融合。从本次演讲中，听众将会了解到Spark的架构演化以及未来的方向，从而对Spark有一个更好、更全面的了解。

下面是PPT原文：关注Hadoop技术博文并回复 spark3 获取本文PPT。

Spark 到目前已经经过了9个年头了，2019年即将发布 Spark 3.0，里面有许多新功能，比如 GPU 支持，参见 Apache Spark 3.0 将内置支持 GPU 调度，文末有福利

下面简单介绍下 Spark 的核心技术：DAG 调度、内存管理(Tungsten)、DataFrame等。

那除了上面我们已经知道的特性，Spark 未来会为我们带来什么呢?

Spark 未来发展的一大方向就是大数据 + AI

Hydrogen 是一项 Apache Spark 计划，旨在将最先进的大数据和 AI 技术结合在一起。它可以将来自 AI 框架的分布式训练作业嵌入到 Spark 作业中。

Hydrogen 主要有以下几点优势

Spark 对 Kubernetes 的支持是从2.3版本开始的，Spark 2.4 得到提升，Spark 3.0 将会加入 Kerberos 以及资源动态分配的支持。

当前的 Shuffle 有很多问题，比如弹性差、对NodeManager有很大影响，不适应云环境。

为了解决上面问题，将会引入 Remote Shuffle Service。

其他的就是 Hadoop 3 的支持等。

　　大连男科医院 http://www.liaoningnk.com/

　　大连专业妇科医院 http://www.bohaifk.com/

　　大连妇科医院 http://www.403yy.com/