37.Spark大型电商项目-用户访问session分析-session随机抽取之实现思路分析 - 代码天地

37.Spark大型电商项目-用户访问session分析-session随机抽取之实现思路分析

其他 2019-03-23 00:54:04 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/someby/article/details/88189853

目录

本篇文章将介绍用户访问session分析-session随机抽取之实现思路分析。

需求

每一次执行用户访问session分析模块，要抽取出100个session。

思路

session随机抽取：按每天的每个小时的session数量，占当天session总数的比例，乘以每天要抽取的session数量，计算出每个小时要抽取的session数量；然后呢，在每天每小时的session中，随机抽取出之前计算出来的数量的session。

举例：10000个session，100个session；0点~1点之间，有2000个session，占总session的比例就是0.2；按照比例，0点~1点需要抽取出来的session数量是100 * 0.2 = 20个；在0点~1点的2000个session中，随机抽取出来20个session。

数据分析

我们之前有什么数据：session粒度的聚合数据（计算出来session的start_time）

session聚合数据进行映射，将每个session发生的yyyy-MM-dd_HH（start_time）作为key，value就是session_id
对上述数据，使用countByKey算子，就可以获取到每天每小时的session数量

（按时间比例随机抽取算法）每天每小时有多少session，根据这个数量计算出每天每小时的session占比，以及按照占比，需要抽取多少session，可以计算出每个小时内，从0~session数量之间的范围中，获取指定抽取数量个随机数，作为随机抽取的索引

扫描二维码关注公众号，回复： 5623365 查看本文章

把之前转换后的session数据（以yyyy-MM-dd_HH作为key），执行groupByKey算子；然后可以遍历每天每小时的session，遍历时，遇到之前计算出来的要抽取的索引，即将session抽取出来；抽取出来的session，直接写入MySQL数据库

猜你喜欢

转载自blog.csdn.net/someby/article/details/88189853

37.Spark大型电商项目-用户访问session分析-session随机抽取之实现思路分析

spark 大型项目实战(二十):用户访问session分析(二十) --session随机抽取之实现思路分析

39.Spark大型电商项目-用户访问session分析-session随机抽取之按时间比例随机抽取算法实现

42.Spark大型电商项目-用户访问session分析-session随机抽取之本地测试

41.Spark大型电商项目-用户访问session分析-session随机抽取之获取抽取session的明细数据

40.Spark大型电商项目-用户访问session分析-session随机抽取之根据随机索引进行抽取

38.Spark大型电商项目-用户访问session分析-session随机抽取之计算每天每小时session数量

spark 大型项目实战(二十二):用户访问session分析(二十二) --session随机抽取之按时间比例随机抽取算法实现

spark 大型项目实战(二十三):用户访问session分析(二十三) --session随机抽取之根据随机索引进行抽取

spark 大型项目实战(二十一):用户访问session分析(二十一) --session随机抽取之计算每天每小时session数量

32.Spark大型电商项目-用户访问session分析-session聚合统计之重构实现思路与重构session聚合

43.Spark大型电商项目-用户访问session分析-top10热门品类之需求回顾以及实现思路分析

13.Spark大型电商项目-用户访问session分析-需求分析

85.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之使用随机key实现双重聚合

11.Spark大型电商项目-用户访问session分析-模块介绍

15.Spark大型电商项目-用户访问session分析-数据表设计

14.Spark大型电商项目-用户访问session分析-技术方案设计

24.Spark大型电商项目-用户访问session分析-JavaBean概念讲解

22-23.Spark大型电商项目-用户访问session分析-开发JDBC辅助组件

20.Spark大型电商项目-用户访问session分析-单例设计模式

88（1）.Spark大型电商项目-用户访问session分析-模块总结

35.Spark大型电商项目-用户访问session分析-session聚合统计之本地测试

34.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果并写入MySQL

31.Spark大型电商项目-用户访问session分析-session聚合统计之自定义Accumulator

36.Spark大型电商项目-用户访问session分析-session聚合统计之使用Scala实现自定义Accumulator

28.Spark大型电商项目-用户访问session分析-Spark上下文构建以及模拟数据生成

88.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之使用随机数以及扩容表进行joi

19.Spark大型电商项目-用户访问session分析-数据库连接池原理

18.Spark大型电商项目-用户访问session分析-JDBC原理介绍以及增删改查示范

16.Spark大型电商项目-用户访问session分析-Idea工程搭建以及工具类说明_

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)