Spark应用场景

4、Spark应用场景

目前大数据处理场景主要有以下几种类型：

1、复杂的批处理（Batch Data Processing），偏重点在于处理
海量数据的能力，至于处理 速度可忍受，通常的时间可能是在数十分钟到数小时； 
2、基于历史数据的交互式查询（Interactive Query），通常的时间在数十秒到数十分钟之间 ；
3、基于实时数据流的大数据处理（Streaming Data Processing），通常在数百毫秒到数秒之间 ；

目前对以上三种场景需求都有比较成熟的处理框架：

第一种情况可以用 Hadoop 的 MapReduce 来进行批量海量数据处理

第二种情况可以 Impala、Kylin 进行交互式查询

第三中情况可以用 Storm 分布式处理框架处理实时流式数据

以上三者都是比较独立，各自一套维护成本比较高，而 Spark 的出现能够一站式平台满意以上需求。

第一种情况使用 Spark Core 解决

第二种情况使用 Spark SQL 解决

第三种情况使用 Spark Streaming 解决

通过以上分析，总结 Spark 场景有以下几个：

1、Spark 是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要 反复操
作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大 的场合，受益就相对较小 ；

2、由于 RDD 的特性，Spark 不适用那种异步细粒度更新状态的应用，例如 web 服务的存 
储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合 ；

3、数据量不是特别大，但是要求实时统计分析需求 ；

典型行业的应用有：

扫描二维码关注公众号，回复： 4796423 查看本文章

1、Yahoo 将 Spark 用在 Audience Expansion 中的应用，进行点击预测和即席查询等;

2、淘宝技术团队使用了 Spark 来解决多次迭代的机器学习算法、高计算复杂度的算法等。
 应用于内容推荐、社区发现等 ;

3、腾讯大数据精准推荐借助 Spark 快速迭代的优势，实现了在“数据实时采集、算法实 
时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通 PCTR 投放 系统上;

4、优酷土豆将 Spark 应用于视频推荐(图计算)、广告业务，主要实现机器学习、图计算等
迭代计算;

5、……

转载请标明出处：https://blog.csdn.net/qq_42246689/article/details/85866013

4、Spark应用场景

猜你喜欢