Spark 01 概述

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lihaogn/article/details/82109505

1)介绍

Apache Spark™ is a unified analytics engine for large-scale data processing.

快速通用的处理大规模数据的引擎。

2)产生背景

  • MapReduce局限性

    1)代码繁琐
    2)只能够支持map和reduce方法
    3)执行效率低下
    4)不适合迭代多次、交互式、流式的处理

  • 框架多样化

    1)批处理(离线):MapReduce、Hive、Pig
    2)流式处理(实时):Storm,JStorm
    3)交互式计算:Impala

3)特点

  • 速度快 speed
  • 易用 ease of use
  • 通用 generality
  • 在多平台运行 runs everywhere

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

4)Spark和Hadoop的协作性

Hadoop优势
这里写图片描述
Spark优势
这里写图片描述

Hadoop+Spark
这里写图片描述

猜你喜欢

转载自blog.csdn.net/lihaogn/article/details/82109505