流数据特征:
- 数据快速持续到达、潜在大小不可预测
- 注重数据的整体价值,不过分关注个别数据
- 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序
- 数据量大,但不十分关注存储,一旦经过处理,要么被丢弃,要么归档存储
- 数据来源多,个事复杂
批量计算和实时计算
流计算系统要求:高性能、海量式、实时性、分布式、易用性、可靠性
传统的数据处理流程
隐藏两个前提:
1、存储的数据肯定是旧的,存储的静态数据是过去某一时刻的快照,这些数据在查询时可能已不具备时效性
2、需要用户主动去发出查询来获取结果
流计算处理流程:
区别:
1、流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据
2、用户通过流处理系统获取的一般是实施结果而传统的数据处理方式获取的都是过去某一历史时刻的快照
3、流处理系统不需要用户主动发送查询,它会实时地把生成的查询结果不断地推送给用户