2、初始流处理

1、业务现状分析

  需求:

    统计主站指定课程访问的客户端(PC、APP)、地域信息分布  

      地域:从 ip 解析省市

      客户端:useragent获取

  实现:

    收集课程编号,客户ip信息、ueragent,通过MR或spark统计分析

  技术:

    日志收集:Flume

    离线分析:MR或spark

    结果通过图形化界面展示

  问题:

    小时级别或分钟级别,MR或spark或许可以,对于实时或准实时则不行,需要采用流式处理框架,

    如sparkstreaming可实现秒级别的数据处理

2、实时流处理产生背景

  实时性要求高:电信流量包推荐、电商商品营销(此类业务周期短)

  数据量大:还要保证数据准确性

3、实时流处理概述

  实时计算:秒级别、毫秒级别,延迟低

  流式计算:数据是一直进的,不会停止

  实时流式计算:在产生的实时数据流上进行计算

4、离线和实时计算的对比

  1、数据来源

    离线:hdfs历史数据  数据量大

    实时:kafka等消息队列中

  2、处理过程

    离线:MR

    实时:离散流

  3、处理速度

    离线:慢

    实时:快

  4、进程

    离线:启动 + 销毁

    实时:7*24

5、实时流处理框架对比

  storm:每次一条数据

  sparkstreaming:微批

  flink:实时或离线

6、技术选型

     

7、行业中应用

  电信:流量实时计算,并返回给用户,外加推荐套餐或其他增值服务

  电商:实时推荐

猜你喜欢

转载自www.cnblogs.com/lybpy/p/9862404.html