元数据管理Datahub基本介绍和特点

1. 基本介绍

Datahub是现代数据栈的元数据管理平台。能够从不同的平台(比如mysql、Airflow、Superset)将元数据同步到Datahub。提供统一的元数据搜索和治理,能降低开发人员的数据探索复杂性

2. 功能特色

2.1 支持不同平台的元数据同步和搜索

可以将数据库(mysql等)、数据湖(Iceberg)、BI平台(Superset等)、调度系统(Airflow等)、机器学习特征储存等元数据同步到Datahub。提供一个类似百度一样的搜索功能,对所有平台的元数据进行搜索

搜索

2.2 血缘关系

通过追踪不同平台的元数据血缘关系,能理解数据是如何被转换和流动的。并提供一个可视化的血缘关系图,进行血缘关系展示,还可以点击查看有关实体的详细内容。如果上游的发生变更,可以查看到会影响哪些下游的实体

血缘关系

impact分析

2.3 查询数据集的统计信息

元数据中有一部分是关于一个数据集的统计信息。比如行和列的数量,数据集被查询的次数和哪些用户查询的次数最多;每列当前时间和历史时间的最小值、最大值、空值数量、空值所占比例

查询数据集的统计信息

2.4 实时治理

Datahub的Actions Framework提供如下实时的使用场景:

  • 通知:当在DataHub上进行元数据的更改时,向治理团队发送邮件等形式的通知
  • 审计:审计谁对DataHub进行了哪些更改
  • 工作流集成:将DataHub集成到组织的内部工作流中
  • 同步:将DataHub中的更改同步到第三方系统

2.5 Datahub的权限管理

Datahub可以创建用户组、用户、访问策略(用户或用户组对Entity有哪些操作权限

Entity的权限管理

2.6 使用Domains、Glossary Terms、tags对数据Entity进行管理

  • Domains:通常用于标记该Entity属于哪个部门或团体
  • Glossary Terms:通常用于描述该Entity的核心业务概念
  • tags:给该Entity贴一些自定义的标签,用于Datahub的页面搜索

Domains、Glossary Terms、tags

2.7 在Web界面对元数据进行管理

可以在Web界面创建、配置、执行和调度元数据导入到Datahub

猜你喜欢

转载自blog.csdn.net/yy8623977/article/details/125308558