Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存

业界资讯 2023-06-19 05:15:09 阅读次数: 0

背景
在使用Zeppelin JDBC Intercepter 对于Hive 数据进行查询过程中，如果遇到非常复杂的sql，查询效率是非常慢

比如：

select dt,count() from table group by dt

做过数据开发的同学都知道，在hive sql查询过程中，hive 会被转换为MapReduce，但是对于不是所有sql 都会有mapper和reducer 的过程，如果只是简单的查询不会涉及reducer，只有统计相关的查询会涉及到reducer，而其中的shuffle 和 reducer 是非常耗时

如果有有这样一些sql

sql1:
select from ( select name,count() from table0 group name ) t where name=’xiaohong’

sql2:
select from ( select name,count(*) from table0 group name ) t where name=’xiaoli’

我们能看到sql1 和sql2 只是修改了一下查询条件，但是如果是单独执行，则需要对进行两次完整的查询，比如说：sql1需要花费10分钟，同样sql2也需要再花费10分钟

而adhoc 场景中，这种场景非常常见，只是简单修改一个sql 的查询条件就需要走多次一模一样的流程。

那我们有没有什么办法去优化下？

优化思路分析

无论是hive sql 还是spark sql，只要是复杂的sql，难免会涉及到shuffle或者reducer 过程，这两个过程恰恰是整个过程中非常耗时的过程。那我们现在分析哪些大数据的查询sql会导致查询非常慢呢？

(1)sql 里面含有group by、distinct

(2)sql含有order by，order by 是要根据数据全局排序

(3)含有count、join 这种需要统计和关联其他表数据的sql

上述sql 在大数据查询是都是比较慢的，相教育一些只是简单的过滤查询场景

优化思路流程：

(1)1

当然最后每天晚上要清除一下当天产生的所有临时表，避免表数据过多

非常遗憾的是Zeppelin Committer 认为这个功能可能会影响到项目的整体架构，而不进行合并，所以我在此进行阐述，详细设计和pr参考：https://github.com/apache/zeppelin/pull/4611

猜你喜欢

转载自blog.csdn.net/weixin_43291055/article/details/131215905

Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存

Apache Zeppelin系列教程第九篇——SQL Debug In Zeppelin

Apache Zeppelin系列教程第八篇——LRU算法在Apache Zeppelin中的应用

Apache Zeppelin系列教程第二篇——整体架构

Apache Zeppelin系列教程第六篇——Zengine调用Interpreter原理分析

Apache Zeppelin系列教程第四篇——JDBCInterpreter原理分析

Apache Zeppelin系列教程第五篇——Interpreter原理分析

Apache Zeppelin系列教程第三篇——Note的持久化管理

Apache Zeppelin系列教程第一篇——安装和使用

Apache Zeppelin系列教程第七篇——运行paragraph的整个流程分析

基于Apache Zeppelin Notebook和R的交互式数据科学

【Apache之 Zeppelin 介绍】

Apache Zeppelin是什么？

Apache Zeppelin 0.8.0 发布，协作数据分析

MRS +Apache Zeppelin，让数据分析更便捷

Apache Zeppelin(2)Zeppelin and Spark Yarn Cluster

Apache Hudi集成Apache Zeppelin实战

Apache Zeppelin(1)Build and Installation

apache zeppelin 初次使用体验.

Apache Zeppelin使用说明

【Python入门系列】第九篇：Python数据分析和处理

第九篇 Python数据类型之集合

第九篇 elasticsearch的document数据路由原理

数据分析第九篇：分类（kNN）

记录使用Apache zeppelin安装和使用

Apache Zeppelin 简单介绍，以及下载地址

apache缓存

大数据学习整理篇（八）Zeppelin连接Spark

元数据与数据治理｜大数据治理（第九篇）

Apache Zeppelin 番外篇——参与开源的得与失

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)