Flink实时数据，在电商618大屏对数方案 - 代码天地

Flink实时数据，在电商618大屏对数方案

其他 2020-01-10 22:33:33 阅读次数: 0

今天收到原创作者投稿，感谢?作者对小晨说数据平台的认可。

作者简介：

目前就职于一线互联网公司，从事大数据相关工作。了解互联网、大数据，一直在努力的路上。

对于一个实时数据产品人员、或者开发人员来说，产品上展示的实时数据，pv、uv、gmv等等，怎么知道这些数据是不是正确的呢？当其他的小组开发的产品的数据(或者其他的数据提供方)又是另外一个数字，那么究竟该如何判断自己的数据还是别人的数据是正确的呢？这就需要一套实时数据对数方案，本文主要从背景、实时数据计算方案、对数方案、总结四方面来介绍，说服老板或者让其他人相信自己的数据是准确的、无误的。

一、背景：

相信做过实时数据统计的朋友，肯定会遇到一个问题，怎么知道自己算的数据是不是对的呢？比如：pv、uv、dau、gmv、订单等等统计数据。

640?wx_fmt=png

二、实时数据统计方案

640?wx_fmt=png

上述流程图描述了一般的实时数据计算流程，接收日志或者MQ到kafka，用Flink进行处理和计算，将最终计算结果存储在redis中，最后查询出redis中的数据给大屏、看板等展示。

但是在整个过程中，不得不思考一下，最后计算出来的存储在redis中指标数据是不是正确的呢？怎么能给用户或者老板一个信服的理由呢？相信这个问题一定是困扰所有做实时数据开发的朋友。

比如说：离线的同事说离线昨天的数据订单是1w，实时昨天的数据确实2w，存在这么大的误差，到底是实时计算出问题了，还是离线出问题了呢？

三、对数解决方案

还是拿上面离线和实时的订单数据为例，两者不一致。离线的同事说，这边有明细数据，可以对，但是实时这边只有redis的统计结果数据，肯定是没办法说服别人的。因此，对于上图中加工的实时宽表数据，可以进行持久化，进行存储。

这样，实时数据也有明细数据，就可以和离线数据进行比对了，到底是日志丢失还是消息没有发送或者计算的业务逻辑有问题，就能够一目了然。

这就需要对flink加工的实时宽表进行存储了，这边考虑两种解决方案。

(1)实时宽表数据存储至elasticsearch

640?wx_fmt=png

将加工的宽表数据通过Flink写入es，这样可以得到所有数据的明细数据，拿着明细和其他数据提供方进行比对即可。

(2)实时宽表数据存储至HDFS，通过Hive进行查询

但是有一些朋友可能会说，es对应的sql count、group by语法操作，非常复杂，况且也不是用来做线上服务，而只是用与对数，所以时效性也不需要完全考虑，这样的话，就可以考虑将数据回写至HDFS了。

因此可以考虑采用下图的方案，将加工的宽表通过Flink写入到HDFS，然后新建hive表进行关联HDFS数据进行关联查询。

640?wx_fmt=png

写HDFS与es相比，存在非常明显的优点：

a.学习成本低、会sql的基本就可以了，而不需要重新学习es负责的count、group by 等语法操作

b.可以非常方便地和离线表数据进行关联查询(大多数情况下都是和离线数据比对)，两张Hive表的关联查询，容易找出两张表的数据差异

四、总结

实时计算能提供给用户查看当前的实时统计数据，但是数据的准确性确实一个很大的问题，如何说服用户或者领导数据计算是没有问题的，就需要和其他的数据提供方进行比对了。问题的关键就在于，只要有明细数据，就可以和任意一方进行比对，毕竟有明细数据。不服？我们就对一对啊。

明细数据的存储、设计也很有讲究，可以和离线或者其他提供方的数据字段进行对齐，这样就非常方便进行比对了，而采用hive这种方式又是最简便的方式了，毕竟大多数人都是会sql的，无论开发人员还是数据人员或者BI人员。

640?wx_fmt=jpeg

关注小晨说数据，获取更多大厂技术干货分享

回复“spark”，“flink”，“机器学习”，“前端”获取海量学习资料～～～

小晨说数据

发布了40 篇原创文章 · 获赞 3 · 访问量 9073

私信关注

猜你喜欢

转载自blog.csdn.net/huzechen/article/details/102634155

Flink实时数据，在电商618大屏对数方案

Flink电商实时数仓项目05-数据可视化

Kafka + Flink + Redis 的电商大屏实时计算案

基于Kafka+Flink+Redis的电商大屏实时计算案例

基于 Kafka + Flink + Redis 的电商大屏实时计算案

基于hadoop或docker环境下，Kafka+flink+mysql+datav的实时数据大屏展示

10.Spark大型电商项目-大实时数据采集流程介绍

方案解读｜实时数据分析如何助力直播电商发展？

实时数据指标统计对数方案

基于Flink SQL CDC的实时数据同步方案

基于 Flink SQL CDC 的实时数据同步方案

Flink电商实时数仓项目04-DWS层

Flink电商实时数仓项目03-DWM层

Flink电商实时数仓项目02-DWD层

Flink电商实时数仓项目01-ODS层

某电商实时数仓宽表加工解决方案

火山引擎 DataLeap：数据秒级生产，揭秘电商实时数仓最佳实践！

API技术分享帖：如何获取电商平台实时数据？

Flink实时数仓数据采集

2023最全电商API接口高并发请求实时数据支持定制电商数据买家卖家数据

2023年618电商大促营销洞察报告

应用实践 | 海量数据，秒级分析！Flink+Doris 构建实时数仓方案

基于 Flink CDC 打造企业级实时数据集成方案

flink电商实时分析系统第2节模拟数据上报代码编写

Tapdata 的 ∞ 实践：实时数据赋能电商资源分配，快速落地敏捷、可复用的库存数据服务

电商进销存软件如何接入电商平台API？要求实时数据、支持高并发

Flink1.8实时电商运营项目实战

智慧通用大屏看板+智慧旅游/政府服务大屏看板+常用图表组件折线图+圆柱图+散点图+热力图+漏斗图+雷达图+航线图+中国动态地图+智慧电商实时动态数据大屏看板+智慧web端高保真大数据动态可视化大屏看板

Flink视频教程_基于Flink流处理的动态实时电商实时分析系统

智慧工地3D可视化大屏数据展示提供实时数据和设备状态信息

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)