Spark Streaming引入-★
新的场景需求
- 前面学习的SparkCore(RDD)和SparkSQL(DataFrame/DataSet)都是用来处理离线数据的技术,如历史日志,历史订单…
- 但是在实际中有越来越多的实时数据的处理需求,如:双十一实时交易大屏, 实时车速监控…
- 这些新的实时的需求使用之前学习的技术很难解决/无法解决
- 所以需要引入新的技术用来解决这些问题,接下来要学习的
Spark Streaming就是Spark提供的用来处理实时数据的框架/技术
注意:
- 如果要做到真正的实时(数据来一条立马/立即处理这样一条),性能要求较高
- 所以Spark Streaming其实是数据来一批处理一批,当批次之间的间隔很小的时候,那么就有点像是再做实时处理了
类似于小时玩的动画书,当翻页的速度很快的时候,就类似于在看动画片了
- 所以Spark Streaming的实时底层其实还是之前的离线,只不过批次时间间隔很小罢了,也叫做
微批处理
- 所以SparkStreaming一般都是秒级实时
- 而Flink可以做到毫秒级
官网介绍
实时计算在大数据中所处的位置