2、初始流处理 - 代码天地

2、初始流处理

其他 2018-10-27 17:58:23 阅读次数: 0

1、业务现状分析

　　需求：

　　　　统计主站指定课程访问的客户端（PC、APP）、地域信息分布　　

　　　　　　地域：从 ip 解析省市

　　　　　　客户端：useragent获取

　　实现：

　　　　收集课程编号，客户ip信息、ueragent，通过MR或spark统计分析

　　技术：

　　　　日志收集：Flume

　　　　离线分析：MR或spark

　　　　结果通过图形化界面展示

　　问题：

　　　　小时级别或分钟级别，MR或spark或许可以，对于实时或准实时则不行，需要采用流式处理框架，

　　　　如sparkstreaming可实现秒级别的数据处理

2、实时流处理产生背景

　　实时性要求高：电信流量包推荐、电商商品营销（此类业务周期短）

　　数据量大：还要保证数据准确性

3、实时流处理概述

　　实时计算：秒级别、毫秒级别，延迟低

　　流式计算：数据是一直进的，不会停止

　　实时流式计算：在产生的实时数据流上进行计算

4、离线和实时计算的对比

　　1、数据来源

　　　　离线：hdfs历史数据数据量大

　　　　实时：kafka等消息队列中

　　2、处理过程

　　　　离线：MR

　　　　实时：离散流

　　3、处理速度

　　　　离线：慢

　　　　实时：快

　　4、进程

　　　　离线：启动 + 销毁

　　　　实时：7*24

5、实时流处理框架对比

　　storm：每次一条数据

　　sparkstreaming：微批

　　flink：实时或离线

6、技术选型

7、行业中应用

　　电信：流量实时计算，并返回给用户，外加推荐套餐或其他增值服务

　　电商：实时推荐

猜你喜欢

转载自www.cnblogs.com/lybpy/p/9862404.html

2、初始流处理

Flink 流处理API2

初始网络流

处理流（过滤流）

流处理

处理流

节点流和处理流

java流--处理流（print）

处理流|缓冲流(Buffered)

selenium初始问题的处理

Spark Streaming实时流处理笔记（2）—— 实时处理介绍

缓冲流（处理流/过滤流）

IO流之节点流与处理流

SparkStreaming学习札记2-2020-2-13--SparkStreaming实时流处理项目实战

python2.X参数处理和初始化日志

批处理和流处理

简单页面流的处理

对象文件处理流

opencv视频流处理

JS处理文件流

流数据处理

flink流处理内容

java流处理

【java】IO处理流

浅谈流处理

流处理框架对比

Kafka流处理平台

Java 处理流

Kafka消息流处理

处理流的用法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)