1、实时流产生背景
时效性高
数据量大
2、实时流处理概述
实时计算
流式计算
实时流式计算
3、离线计算和实时计算的对比
1)数据来源
离线:HDFS 历史数据 数据量比较大
实时:消息队列(Kafka),实时新增/修改记录过来的某一笔数据
2)处理过程
离线:MapReduce:map + reduce
实时:Spark(DStream/SS)
3) 处理速度
离线:慢
实时:快速
4)进程
离线:启动+销毁
实时:7*24
4、实时流处理框架对比
Apache Storm
Apache Spark Streaming
IBM Stream(用的很少,基本不常用)
Yahoo! S4
LinkedIn Kafka