数仓-HIVE元数据收集指标 - 代码天地

数仓-HIVE元数据收集指标

其他 2020-02-25 10:35:46 阅读次数: 0

通过对HIVE表进行打标签，构建基础元数据表

1、存储
2、应用场景
3、数据质量
4、重要等级
5、调度任务
6、计算资源
7、被使用情况

1、存储

HIVE表是否分区、量级（可定阈值设定等级）
优化集群存储资源时、快速找到大表。方便监控表的量级变化情况

2、应用场景

从应用层入手（画像、广告、财务等），通过血缘链路，给涉及到的HIVE表，打上应用场景的标签
清楚知道表是能应用在什么场景下

3、数据质量

参考Apache Griffin默认的指标，数据精准度（和数据源匹配）、主键粒度唯一、字段null值极值平均值统计、离散值分布等
查看表的数据是否有异常情况，第一时间进行报警通知

4、重要等级

应用层的产出也是有重要等级之分，像对外输出、财务、广告、转化率等报表，重要等级是很高的。因此也是通过血缘链路，给涉及到的HIVE表，打上重要等级标签。
在任务调度的时，资源和优先级，应该优先保证

5、调度任务

监控HIVE表的生成对应的调度任务的开始时间和完成时间，用来保证时间截点是健康状态。
比如订单表需要在凌晨2点之前跑完
查看调度依赖的甘特图

6、计算资源

参考Dr-elephant大象医生，监控Map和Reduce端的使用资源、运行速度、是否倾斜、GC比例等
通过上面的监控数据，进行任务优化

7、被使用情况

通过血缘分析，了解表和表的字段在下游的使用情况。表被 from 和 join 的次数、字段被 select where group join 的次数等
如果这是底层的表，使用次数还是很多的话。对此表进行仓库建模处理
如果字段使用较多的话，对此字段进行指标沉淀处理

落地方案

HIVE元数据收集（python版本）
HIVE元数据使用场景落地（python版本）

阿武z

发布了53 篇原创文章 · 获赞 50 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/xw514124202/article/details/103345037

数仓-HIVE元数据收集指标

数仓之元数据及其管理

数仓建模—元数据管理

HIVE元数据收集（python版本）

hive数仓的优化

大数据开发-数仓ads层指标计算

数仓数据指标和标签体系区别

【大数据Hive3.x数仓开发】数仓基础理论

大数据数仓之Hive入门《一》

基于hive数仓的数据字典查询

数仓工具—Hive进阶之数据存储格式(5)

Hive数仓建表数据存储格式选型方法

HIVE数仓的安装与使用

【hive经典指标，离线数仓指标，ADS层指标分析】最近7日内连续3日下单用户数

数仓建模指标体系

数仓指标体系--建设方法

数仓--Hive-面试之Hive数据倾斜的原因及主要解决方法

数仓数据建模中的概念总结（数据域、主题域、总线矩阵、指标...）

【数仓】数据质量

元数据与数据治理｜大数据之数仓平台设计（第十篇）

hive数仓中缓慢变化维

Hive数仓相关概念总结

数仓|Hive性能调优指北

全方位解读hive数仓建模

数仓工具—Hive Beeline(21)

Hive数仓建设手册

数仓 Hive HA 介绍与实战操作

hive离线数仓数据采集——基于canal的binlog数据同步方案

数仓的元数据管理系统(数据治理系统)-Apach Atlas

在HUE中将文本格式的数据导入hive数仓中

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)