Apache Spark 未来:Spark 3.0 预览

本文资料来自2019-03-24在上海举办的 Hadoop+Spark生态技术开放日。参见:https://cloud.tencent.com/developer/salon/salon-1114。

分享者:邵赛赛,腾讯云专家工程师。Apache Spark 以及 Apache Chukwa 的 Committer,Apache Livy PMC。

Apache Spark 从诞生之初到现在已经有了9个年头,从最初的学术界新星,到工业界的宠儿,再到现在的大数据处理不二之选,Spark从底层到上层经过了多次的重构和改进,不断引领当今大数据处理的风潮。

现如今,随着人工智能,深度学习,实时计算的普及以及广泛应用,将大数据处理从原先的简单处理推向了更快、更深度、更智能的层次,如何将大数据和人工智能更好的结合,如何在人工智能的当下进一步发展Spark,Spark又如何将面临新的挑战?

本次演讲将从Spark的过去、现在和将来三个部分介绍Spark的历史演变,现在的架构以及未来的方向。同时着重介绍Spark未来如何与深度学习更好的融合。从本次演讲中,听众将会了解到Spark的架构演化以及未来的方向,从而对Spark有一个更好、更全面的了解。

下面是PPT原文:关注Hadoop技术博文并回复 spark3 获取本文PPT。

Spark 到目前已经经过了9个年头了,2019年即将发布 Spark 3.0,里面有许多新功能,比如 GPU 支持,参见 Apache Spark 3.0 将内置支持 GPU 调度,文末有福利

下面简单介绍下 Spark 的核心技术:DAG 调度、内存管理(Tungsten)、DataFrame等。

那除了上面我们已经知道的特性,Spark 未来会为我们带来什么呢?

Spark 未来发展的一大方向就是 大数据 + AI

Hydrogen 是一项 Apache Spark 计划,旨在将最先进的大数据和 AI 技术结合在一起。它可以将来自 AI 框架的分布式训练作业嵌入到 Spark 作业中。

Hydrogen 主要有以下几点优势

Spark 对 Kubernetes 的支持是从2.3版本开始的,Spark 2.4 得到提升,Spark 3.0 将会加入 Kerberos 以及资源动态分配的支持。

当前的 Shuffle 有很多问题,比如弹性差、对NodeManager有很大影响,不适应云环境。

为了解决上面问题,将会引入 Remote Shuffle Service。

其他的就是 Hadoop 3 的支持等。

  大连男科医院 http://www.liaoningnk.com/

  大连专业妇科医院 http://www.bohaifk.com/

  大连妇科医院 http://www.403yy.com/

猜你喜欢

转载自blog.csdn.net/qq_42894764/article/details/88911203