【Spark】快速简介

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011240016/article/details/84337831

两个要点:

  • 快速通用的计算机系统集群,用于大规模数据处理
  • 高层API可用Java,Scala,Python以及R

Spark上的库:

  • Spark SQL: 数据库操作
  • Spark Streaming: 流计算
  • MLlib: 机器学习库
  • GraphX: 图计算
  • SparkR

Spark的语义抽象/概念

  • RDD: Resilient Distributed Dataset,弹性分布式数据库
  • DAG: 有向无环图
  • SparkContext
  • Transformations
  • Actions

这些概念后面陆续展开。

大数据解决方案

包含多个重要组件:

  • 硬件层:

    • 存储
    • 计算
    • 网络
  • 数据引擎:大脑

  • 统计、计算算法

  • 数据可视化(分析层)

Spark起源

2009年,Matei在进行博士研究时创立,基于内存的基本类型,可以为应用程序带来100倍的性能提升。用户可以将数据加载到集群内存用来反复查询,非常适用于大数据和机器学习。

Spark只是一个通用计算框架,利用Spark实现的应用才是其真正价值所在。

Spark的三个优点

  • 易用,高层API剥离了对集群的关注,可以专注于计算本身
  • 快,且支持交互式使用和复杂算法
  • 通用,Spark是通用引擎,可以完成各种各样的计算
    • SQL查询
    • 文本处理
    • 机器学习

学习Spark,只有一台电脑也是可以的。

学习目标:

  • 搭建Spark集群
  • 使用Spark Shell
  • 编写Spark应用解决并行问题

END.

参考:
https://www.youtube.com/watch?v=TgiBvKcGL24&list=PLbk_EDDIZpfYHlJ_mnyWFgt1CeTPZXXTD

https://github.com/databricks/learning-spark

猜你喜欢

转载自blog.csdn.net/u011240016/article/details/84337831