基于Doris实时数据开发的一些注意事项 - 代码天地

基于Doris实时数据开发的一些注意事项

业界资讯 2023-09-03 12:21:46 阅读次数: 0

300万字！全网最全大数据学习面试社区等你来！

最近Doris的发展大家是有目共睹的。例如冷热分离等新特性的持续增加。使得Doris在易用和成本上都有大幅提升。

基于Doris的一些存储实时数仓在越来越多的场景中开始有一些实践。大家也看到了这种方案频繁出现在社区分享中。但是我们得客观看待这种方案，基于存储的实时数仓有优势也有他的劣势，生产环境中我们要谨慎评估个人的业务场景。这篇文章我结合个人的实践和思考简单说说这个问题。。

为什么有这样的方案？

基于Doris等OLAP实现实时计算的业务很多情况下是基于以下考虑。

在更多的情况下，基于Flink的实时数据开发难度要显著高于离线任务(二者根本不在一个数量级)，基于Doris的存储实时数据开发可以显著降低开发门槛，但是存在滥用的可能。

其次，Flink在大窗口、大状态、灵活计算的场景下并不擅长(注意这里是不擅长，不是不能)，例如在多流Join、维表变更频繁、口径多变的场景下，开发成本极高，但是Doris可以显著降低这一点。

最后，基于Flink的计算数据可观测性差，例如状态数据是不可见的，排查问题，Debug都存在显著门槛，修复历史数据也非常困难。

所以大家可以看到，上述基于Flink为主的实时数据开发存在不小的门槛。所以我们有一个定性的结论，在亿级(或者数千万)数据规模以下，可以使用类似Doris这种的分析引擎，仿照离线数据一样进行分层和定时调度，处理大窗口数据(一般时间跨度超过30天)，在保证性能的前提下，降低实时数据的开发成本，并且极大提高了数据的可观测性，开发运维效率也有一定提升。

和基于Flink的一些方案对比

门槛低，开发简单

所有人都可以开发这样的任务；

运维简单

因为不像Flink一样考虑状态兼容，不需要大量的资源长期占用。只在运行SQL时需要调度资源；

开发效率提升

不需要对Flink有很深入的理解(当然这不是好事),几乎不存在参数条有，测试简单，无需启动调度容器(例如TaskManager和Task的调度)；

数据调试方便，中间结果落地可见

没有Flink的状态数据，所有数据都在表中可查。

上面几点是一些优势，但是基于Doris的这种方案也存在明显的短板，需要大家特别注意！

延迟明显

如果你采用了Doris，那么我们大概率是配合定时调度进行的，一般调度周期在30秒级以上，意味着数据实时性大幅降低，一些实时观测的指标例如实时GMV、在线人数等场景不适用；

数据规模限制

如果你采用了Doris，那么意味着，你的TPS不能过高，这不是Doris擅长的领域，需要大家特别注意。另外单次扫描的数据不能过大，正如我们前面所说，亿级(或者数千万)数据规模以下才有比较好的性能保证。

最后，如果你真的选择以Doris为主的实时数据开发，那么意味着Doris会成为你的成本、运维中心。要有非常严格的配套工具，例如报警、任务运行监控、任务规范性、调度和血缘能力。要特别注意资源和SQL性能问题，一旦他们成为瓶颈，会影响所有基于Doris的任务运行。

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

猜你喜欢

转载自blog.csdn.net/u013411339/article/details/132157790

基于Doris实时数据开发的一些注意事项

#Android开发杂记--BottomNavigationView的一些注意事项

ajax 一些注意事项！！

glm一些注意事项

一些注意事项

Chromedriver的一些注意事项

一些设计注意事项

Gson的一些注意事项

一些考试的注意事项

Django的一些注意事项

PowerMockito的一些注意事项

protobuf一些注意事项

基于自己项目的 lua 代码规范和一些书写的注意事项总结

FME使用的一些注意事项与技巧（一）

phalcon 一些开发注意事项和redis配置

Android开发中容易被忽视的一些注意事项

关于RESTful一些注意事项和接口开发规范

微信开发11----------一些注意事项

关于RESTful一些注意事项，和自己整理的接口开发规范

开发中mybatis查询过程的一些注意事项

android 关于usb开发和一些注意事项

RestFul的一些注意事项和接口开发规范

在vs下的osg的qt窗口开发例子以及一些注意事项

go开发注意事项和dos的一些操作

Vue编写时的一些注意事项（9）--简单插件的开发

用Cubemx和HAL库开发stm32的一些注意事项

Vue编写时的一些注意事项（11）（--注意事项、安全、响应式）

序列化的一些注意事项及建议

DynamoDB入门知识和一些注意事项

网上搜的一些优化Ibatis的注意事项

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)