Apache Spark 简介

闪电般的统一分析引擎

Apache Spark™是用于大规模数据处理的统一分析引擎。

速度

运行工作负载的速度提高了100倍。

Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。

Hadoop和Spark中的逻辑回归

使用方便

使用Java,Scala,Python,R和SQL快速编写应用程序。

Spark提供了80多个高级操作员,可轻松构建并行应用程序。您可以 从Scala,Python,R和SQL Shell 交互使用它。

df =火花。阅读json “ logs.json”  df。其中“年龄> 21”    。选择“ name.first” 显示
Spark的Python DataFrame API
通过自动模式推断读取JSON文件

概论

结合使用SQL,流和复杂的分析。

星火权力库,包括一叠 SQL和DataFramesMLlib机器学习, GraphX星火流。您可以在同一应用程序中无缝组合这些库。

无处不在

Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行。它可以访问各种数据源。

您可以在EC2Hadoop YARNMesosKubernetes上使用其独立集群模式运行Spark 。访问HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive以及数百种其他数据源中的数据。

社区

Spark在各种组织中用于处理大型数据集。您可以在Powered By页面上找到许多示例用例 。

有很多联系社区的方法:

贡献者

Apache Spark由300多家公司的众多开发人员构建。自2009年以来,已有1200多名开发人员为Spark!做贡献

该项目的 提交者 来自25个以上的组织。

如果您想参加Spark或为它之上的图书馆做贡献,请学习 如何贡献

入门

无论您是来自Java,Scala,Python,R还是SQL背景,学习Apache Spark都很容易:

发布了362 篇原创文章 · 获赞 121 · 访问量 61万+

猜你喜欢

转载自blog.csdn.net/daqiang012/article/details/103935476