Apache Hudi初探(七)(与spark的结合) - 代码天地

Apache Hudi初探(七)(与spark的结合)

其他 2023-08-22 17:41:05 阅读次数: 0

背景

目前hudi的与spark的集合还是基于spark datasource V1来的，这一点可以查看hudi的source实现就可以知道:

class DefaultSource extends RelationProvider
  with SchemaRelationProvider
  with CreatableRelationProvider
  with DataSourceRegister
  with StreamSinkProvider
  with StreamSourceProvider
  with SparkAdapterSupport
  with Serializable {

闲说杂谈

接着Apache Hudi初探(二)(与spark的结合)中剩下的：

    val syncHiveSuccess = metaSync(sqlContext.sparkSession, writeConfig, basePath, df.schema)

这里主要是同步到数据到hive的元数据中，如果hoodie.datasource.hive_sync.enable开启（默认是false，不开启）
则会设置hoodie.datasource.meta.sync.enable为true（默认是false，不开启），于此同时会把HiveSyncTool类加入到syncClientToolClassSet集合中，便于后续调用，当然如果设置了hoodie.meta.sync.client.tool.class，也会加入到该集合中。
如果hoodie.datasource.meta.sync.enable为true ,
会设置hoodie.datasource.hive_sync.schema_string_length_thresh为spark.sql.sources.schemaStringLengthThreshold 默认是4000
设置hoodie.meta_sync.spark.versio为当前spark的版本
设置hoodie.meta.sync.metadata_file_listing 为hoodie.metadata.enable （默认是true）
之后调用HiveSyncTool的syncHoodieTable方法来进行元数据的同步，
对于MOR表来说，会有两张表，一张是rt 表，一张是ro表，分别对应snapshot表（实时表）和读优化表
但是如果hoodie.datasource.hive_sync.skip_ro_suffix为true （默认是false），则读优化表，则不会加 ro 后缀
最后还会在spark中刷新刚才建立的表，这样才spark的查询中就能查询到插入的hudi表

猜你喜欢

转载自blog.csdn.net/monkeyboy_tech/article/details/130798742

Apache Hudi初探(七)(与spark的结合)

Apache Hudi初探(六)(与spark的结合)

Apache Hudi初探(四)(与spark的结合)

Apache Hudi初探(五)(与spark的结合)

Apache Hudi初探(十一)(与spark的结合)--hudi的markers机制

Apache Hudi初探(十)(与spark的结合)--hudi的Compaction操作

Apache Hudi初探(一)(与flink的结合)

Apache Hudi初探(八)(与spark的结合)--非bulk_insert模式

Apache Hudi初探(九)(与spark的结合)--非bulk_insert模式

Apache Hudi初探(二)(与flink的结合)--flink写hudi的操作(JobManager端的提交操作)

Apache+Hudi入门指南: Spark+Hudi+Hive+Presto

使用Apache Spark和Apache Hudi构建分析数据湖

Apache Hudi 介绍与应用

Apache Hudi使用简介

Apache Hudi 是什么？

Apache Hudi源码编译

Apache Spark

Apache Kylin Spark Cubing on Kubernetes 初探

Apache Hudi集成Apache Zeppelin实战

写入Apache Hudi数据集

Apache Hudi技术与架构-1

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

Apache ServiceMix 初探

数据湖有新解！Apache Hudi 与 Apache Flink 集成

apache tomcat结合

Apache和PHP结合

apache结合svn

php和apache结合

Offset Management For Apache Kafka With Apache Spark Streaming

Apache Spark 读写Apache ignite 代码实战

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)