A prática de data warehouse em tempo real baseado em Flink + Hudi no Shopee

Este artigo foi publicado pela primeira vez na conta pública do WeChat " Equipe Técnica do Shopee "

Resumo

Apache Hudi é um componente típico de soluções baseadas em Lakehouse na indústria Comparado com as tradicionais arquiteturas de data warehouse baseadas em HDFS e Hive, as soluções Lakehouse baseadas em Apache Hudi têm muitas vantagens, tais como: atualização de dados de baixa latência, alta atualização de dados; Gerenciamento automático de arquivos pequenos; suporte para leitura e gravação multi-versão de arquivos de dados; conexão perfeita com mecanismos como Hive/Spark/Presto no ecossistema de big data. Com base nessas características, começamos a tentar atualizar a atual arquitetura de data warehouse baseada principalmente no Hive.

Este artigo se concentrará nas soluções, casos práticos e planejamento da próxima etapa do negócio Shopee Marketplace usando o Flink + Hudi para construir um data warehouse em tempo real.

1. Introdução aos antecedentes

1.1 Status Quo

Dentro do Shopee, a equipe do Data Infra apoiou o processo de entrada de dados do lago para o Hudi, fornecendo um grande número de fontes de dados com alta estabilidade e tempo real. Nossa equipe de engenharia de dados do Marketplace também construiu pipelines de dados horários de pedidos, commodities e usuários com base nessas tabelas Hudi. Esses dados horários não apenas fornecem suporte de dados para o pessoal de negócios durante o período de grande promoção, mas também são usados ​​no controle de risco diário dos negócios.

Atualmente, adotamos a ideia de mini batch, calculamos e atualizamos os dados das últimas 3 horas a cada hora e resolvemos os problemas de atraso de dados e desalinhamento do tempo JOIN, garantindo a atualização oportuna dos dados. No entanto, com o rápido crescimento do volume de dados, aumenta a dificuldade de garantir o SLA de dados por hora e o consumo de recursos computacionais . Começamos a explorar soluções para melhorar a pontualidade da saída de dados e reduzir o consumo de recursos.

1.2 Análise do ponto de dor

Depois de classificar e analisar a estrutura das tarefas horárias, descobrimos que:

  • Há muitos cálculos repetidos no cálculo de lote de horas diferentes na tabela de horas, pois alguns registros inalterados também participam do cálculo;
  • 存在较多的大表全量 JOIN 操作,比如通过商品主要信息表关联商品价格表和商品库存表;
  • 读取的 Hudi 表数据时延从几分钟到几十分钟不等,大表的延迟较高。

可通过避免不必要的重复计算,用增量数据 JOIN 替代大表全量 JOIN,以及采用及时性更好的数据源的方式来缓解或者解决当前的痛点。经过相关的技术调研之后,我们拟定了以使用 Flink + Hudi 为核心的技术方案,通过实时计算和数据湖存储构建实时数据仓库

1.3 典型实时计算应用与实时数仓的差异

在介绍具体方案介绍,我们先对比典型实时计算应用和实时数仓,以了解和区分他们的不同点和侧重点。

其中,典型实时计算应用包括:

1)事件驱动型应用

  • 定义:它从一个或多个事件流提取数据,并根据事件触发计算、状态更新或其他外部动作。
  • 特点:侧重对输入 Event 的业务逻辑处理,会下发新 Event 给其他应用。
  • 案例:使用 CEP(Complex Event Processing)进行实时反欺诈。

2)数据分析应用

  • 定义:对输入数据流进行实时分析型计算,并将实时更新的结果数据写入外部存储系统,然后基于结果数据提供数据服务。
  • 特点:常用于计算聚合类指标,用以满足特定的需求;可完成几个关联数据流的简易复合指标计算;计算结果大多输出到外存系统;多流场景下的计算结果不一定完全正确,或者要得到最终完全正确的结果成本会极高。
  • 案例:实时数据统计监控。

3)数据管道应用

  • 定义:实时转换、丰富数据,并将其从某个存储系统移动到另一个存储系统中。
  • 特点:从一个不断生成数据的源头读取记录,并将它们以低延迟移动到终点。
  • 案例:实时数据入湖。

实时数仓可理解为将经典离线数仓实时化,给用户提供与离线数仓相似的数据使用体验,包括但不限于表的 schema,数据查询方式等。为了达到这一目标,实时数仓需满足以下要求:

  • 易用性:实时数仓需存储在已有的数据仓库中,因为我们期望能在 Spark 和 Presto 中访问它,并且能便捷地与离线数据仓库数据结合使用。
  • 完整性:实时数仓需要支持各类复杂指标的计算,因为我们期望它能覆盖当前所有小时数据的指标,甚至将来会完全替换天数据,走流批一体化架构。
  • 准确性:实时数仓需要提供具备全局(所有字段)最终一致性的数据,因为在多数据源的情况下,很难保证瞬时的全局一致性,而全局最终一致性则是对数据及时性和准确性的折衷。
  • 及时性:实时数仓需要提供尽量及时的数据,让端到端的时延降到尽可能低。

和典型实时计算相比,实时数仓有如下的侧重点或者优势,例如:

  • 降低了实时计算中复杂业务指标的计算困难;
  • 降低了实时计算中多流 JOIN 中数据不一致的风险,提高了可维护性。

但,实时数仓为此付出了降低时效性的代价。

2. 基于 Flink+Hudi 的实时数仓架构设计

2.1 DataFlow 简介

基于以上分析,我们设计了满足实时数据仓库场景需求的如下 DataFlow,数据会从 Kafka①,经 Flink 计算后②,写入 Partial Updated Hudi 表(部分列更新)③,然后与离线 Hive 表或其他实时入湖的 Hudi 表④ 一起,经周期性的 Flink/Spark 批计算⑤ 后写入结果 Hudi 表⑥。

可以看到 Data Flow 中结合了流计算② 与批计算⑤,并有两个部分使用了 Hudi③⑥。实时计算用来加速数据处理,提升全局数据的及时性;批计算会计算复杂指标并更新当前最新的数据,用来确保数据的完整性准确性;而 Partial Update Hudi 表③ 和 Multi-version Hudi 表⑥ 都能在 Spark 和 Presto 中便捷访问,保证了数据的易用性

2.2 DataFlow 详情

2.2.1 分组 Kafka Topics

  • 功能:将拥有相同主键的多个 Kafka Topic 形成一个逻辑上的 topic 组,一个 topic 组会被一个 Flink 作业消费。
  • 说明:每个 topic 的消息相当于该组所有 topic 构成的逻辑宽表的一部分字段。例如,Kafka 组 GT1T2 两个 topic,其中,T1 topic 有主键 pk 和字段 col-1T2 topic 有主键 pk 和字段 col-2,那么 Kafka 组 G 逻辑上包括主键 pk,字段 col-1 和字段 col-2,即 T1(pk, col-1) + T2(pk, col-2) => G(pk, col-1, col-2)
  • 输入:无
  • 输出:具有相同主键的多个 Kafka Topic 消息。

2.2.2 通用流式 ETL

  • 功能:进行简单的数据 ETL,例如,常见的 projectfiltermap 或自定义 Scalar FunctionTable Function
  • 说明避免使用 group byrank 等任何会使用 Flink State 的操作,因为当 Kafka Topic 组的主键的基数较大时(比如全量商品数),同时处理多个 topic(10+)的数据需要的计算资源极大,而且巨大的 State 会使得作业的稳定性难以保障。
  • 输入:具有相同主键的多个 Kafka Topic 消息。
  • 输出:经 ETL 处理后的具有相同主键的部分列的消息。

2.2.3 Partial Update Hudi 表

  • 功能:根据写入 Hudi 表的消息,更新消息主键所在行的部分数据列。
  • 说明:Partial Update Hudi 表是一个物理上的宽表,Kafka Topic 组中的任意一个 topic 的消息在经过第二步的通用流式 ETL 之后,会得到该消息的部分列最新的数据,Hudi 会通过 PartialUpdateAvroPayload 更新主键行对应的部分列。可以发现 Partial Update Hudi 表实际上完成了将整个 Kafka Topic 组的所有 topic 的数据按照相同的主键 JOIN 成一行完整记录的功能,即多流 JOINPartialUpdateAvroPayload 是 Shopee Data Infra 团队开发的 Payload,在社区 OverwriteNonDefaultsWithLatestAvroPayload 的基础上支持了 MOR 表的 Partial Update。
  • 输入:经 ETL 处理后的具有相同主键的部分列的消息。
  • 输出:行记录为所有字段当前能得到的最新值的 Hudi 表。

2.2.4 其他 Hudi 表和 Hive 表

  • 功能:作为批计算的部分数据来源。
  • 说明
    • 首先,并非所有的数据都有实时数据源,例如:有一部分数据源是人工维护,或者来自其他数据仓库。
    • 其次,维度信息的变更在主要数据流上不一定有事件驱动,例如:在商品信息数据流上只能捕获商品类目 ID 变更的事件,而类目名称因为不在商品信息数据流中,就无法捕获商品类目变更,只能通过稍后修正的方式更新。
    • 最后,一些在无法或者难以实时计算的指标的数据源也属于这一部分,可以是 Hive 表或 Data Infra 团队维护的实时数据入湖的 Hudi 表。
  • 输入:无
  • 输出:其他 Hudi 表和 Hive 表。

2.2.5 周期性批处理

  • 功能:基于当前最新的数据计算最新的目标数据,将各数据源的数据 JOIN 在一起,计算复杂指标和关联多个数据源的衍生指标。
  • 说明:批处理的执行周期应该尽量的短。
  • 输入:Partial Update Hudi 表,Hive 表和其他 Hudi 表。
  • 输出:当前最新的结果数据快照。

2.2.6 Multi-version Hudi 表

  • 功能:储存每一次批处理写入的当前最新的结果数据快照。
  • 说明:Hudi 的多版本特性,可以确保数据的写入对正在执行的数据查询无影响。
  • 输入:当前最新的结果数据快照。
  • 输出:包含当前最新结果数据快照的多版本 Hudi 表。

2.3 DataFlow 示例

下图是实时数据仓库中店铺维表的 DataFlow,仅示意。

  1. 分组 Kafka Topics

    • 第一组以 shop_id 为主键,包括三个 topic。
    • 第二组以 user_id 为主键,包括两个 topic。
  2. 通用流式 ETL

    • 仅执行 project,选出部分字段。
    • 将不同 topic 的数据 UNION 起来,非该 topic 提供的字段设为 NULL
  3. Partial Update Hudi 表

    • 执行 Partial Update,将相同主键的不同消息的数据合并和更新。
  4. 其他 Hudi 表和 Hive 表

    • 其他实时入湖的 Hudi 表,包含 tag 信息。
    • 其他数据仓库产出的 Hive 表,获取用户的回复率。
  5. 周期性批处理

    • 将数据源 JOIN 在一起。
    • 进行复杂计算,比如 ROW_NUMBER() OVER (PARTITION BY is_sbs ORDER BY item_count DESC) AS item_cnt_rank
    • 进行跨数据源的衍生指标计算,比如 IF(is_sbs=1 and uea1 > x, 1, 0) AS is_uea1_sbs_shop
  6. Multi-version Hudi 表

    • 不同的调度批次生成当时最新的店铺维表数据,00:00 开始第一次调度,并于 00:10 生成第一个版本的数据;00:15 开始第二次调度,并于 00:25 生成第二个版本的数据,以此类推。

2.4 我们的思考

1)为什么不构建成完全实时的作业,而添加额外的批处理过程?

  • 10+ 个实时数据流的 JOIN 成本高昂,即使把部分数据作为维表或用 API 点查,都有较高的成本;而且对于部分数据延迟的情况处理成本也较高,不仅需要维护巨大的 State,还有重复请求数据时的请求放大问题。
  • 维表或点查 API 的数据更新,在主数据流上不一定有事件触发,即不会有 Event 去驱动实时处理并或取最新的维度信息,这会导致一些关联的维度信息将始终无法更新,直至主数据流上有更新的事件产生。
  • 批处理虽然会使得数据的及时性降低,但可以解决以上两点问题。可以将流计算与批计算理解为分级计算的策略,实时计算提供大多数可用的数据,时延较低,但更复杂和准确的数据由批计算完成,时延相对较高,不同用户可按需选择使用流计算更新的 Partial Update Hudi 表或者批计算更新的 Multi-version Hudi 表。

2)为什么要使用一个 Flink 作业消费一个 Kafka Topic 组,而不是一个 Flink 作业消费一个 topic?

  • 写入 Partial Update Hudi 表是对多个 topic 的数据 UNION ALL 之后写入,非该 topic 生成的字段设置为 NULL。如果用一个 Flink 作业消费一个 topic,当新增一个字段时,消费该 Topic 组的所有 Flink 作业都需要添加字段,然后重启,带来了不必要的额外维护成本。
  • Hudi 在 0.8 开始支持通过 Zookeeper 或者 HiveMetastore 进行锁控制的方式并发写入,后续如果一个 Kafka Topic 组中的 topic 数量太多,我们可能考虑一分为二。

3)为什么不把一些维表关联的操作放在 Flink 作业里面执行?

  • 如果维表是和 Partial Update Hudi 表相同的主键,则 Partial Update Hudi 表其实已经完成了维表 JOIN 的操作。
  • 如果维表的主键与 Partial Update Hudi 表不同,则维表有更新时,主数据流不一定有事件驱动去关联最新的维度属性,这样就会导致维度属性的不准确。虽然可以通过 State 缓存数据,通过特定事件触发维表关联,但是在维表数量较多时,整个作业的资源消耗极大,稳定性也会下降。通过批计算就可以比较方便的处理这种情况。

4)Partial Update Hudi 表和 Multi-version Hudi 表分别是什么类型的表?

  • Partial Update Hudi 表采用数据时延较低的 MOR 表,每次 Checkpoint 成功后数据即可见,而且异步 Compaction 对作业的性能影响很小。用户可以根据不同的数据时延和查询性能要求对 MOR 表使用 Read Optimized Query 或 Snapshot Query。批计算读取 Partial Update Hudi 表是采用数据时延较低的 Snapshot Query,尽量减少端到端的数据时延。
  • Multi-version Hudi 表目前采用的是 COW 表,因为现在的批处理都采用的是 INSERT OVERWRITE 方式生成最新的文件 Snapshot 版本。后续如果批处理可以优化成增量处理 INSERT INTO 的方式时,会采用 MOR 表。

5)如何确保数据的全局最终一致性?

  • 对于 Partial Update Hudi 表,只要 Kafka Topic 组中的不同 topic 数据都被正常消费,在 Partial Update Hudi 表中的终究会更新所有数据,避免了多流 JOIN 时,部分流延迟较大或者流损坏导致的数据丢失问题。
  • 同理,对于 Multi-version Hudi 表,只要上游的各数据源可以确保最终一致性,经过批处理计算也终究会得到最终一致的结果,因为在批处理的下一次调度中会根据最新的上游数据生成最新版本的快照。

6)相比于小时数据,哪些部分有加速?

  • 之前小时作业中的多表 JOIN 操作,被 Partial Update Hudi 表替代, Partial Update Hudi 表等效于 JOIN 后的结果表。
  • 第二步的 Flink 流计算只处理增量数据减少了重复计算。
  • 尽可能地将字段转换也在第二步 Flink 流计算中完成,如常见的 projectfiltermap 或自定义 Scalar FunctionTable Function,降低了第五步批计算的复杂度。

7)端到端的时延怎么评估?

  • 端到端的时延为时延最大的 Partial Update Hudi 表的时延,加上第五步批处理的时延。这里我们忽略第四步的数据源时延,因为第四部分会有一些离线的数据源,其他十分重要数据源我们会以 Partial Update Hudi 表的方式生成。
  • 若第 i 组 Kafka Topic 组对应 Flink 作业更新 Partial Update Hudi 表的 Checkpoint 的执行时长 ci,Checkpoint 间隔时长为 di,则 Partial Update Hudi 表的时延为 ci ~ ci + di + ci,其中在 Checkpoint 过程中消费的数据,需要到下一次 Checkpoint 结束才可读,故最大时延为 ci + di + ci。定义所有的 Kafka Topic 组中,时延最大的 Partial Update Hudi 表时延为 c ~ c + d + c
  • 若批处理的调度周期为 b,执行时间为 e,则批处理的时延为 e ~ b + e,同样在一次批处理过程中数据源更新的数据,需要到下一次执行结束才可读,故最大时延为 b + e
  • 端到端的时延为 c + e ~ (c + d + c) + (b + e)

3. 实时数据仓库实施

3.1 Partial Update Hudi 表

3.1.1 Bootstrap 配置

Partial Update Hudi 表,需要先通过批处理写入历史数据,然后再实时处理在 Kafka 中的增量数据。

批处理写入历史数据时使用 Bulk Insert 的方式写入,设置 hoodie.sql.bulk.insert.enable=true 开启 Bulk Insert,设置 hoodie.bulkinsert.shuffle.parallelism 可以控制写入的并行度,每个分区产生的文件数也和这个参数有关,当设置的过大时会产生小文件的问题。

在此基础上设置 Clustering 相关参数可以完成小文件的合并,设置 hoodie.clustering.inline=true 开启 Clustering,设置 hoodie.clustering.inline.max.commits=1 可以在 Bulk Insert 之后立即执行 Clustering 操作。hoodie.clustering.plan.strategy.max.bytes.per.grouphoodie.clustering.plan.strategy.target.file.max.byteshoodie.clustering.plan.strategy.small.file.limit 用来控制 Clustering 输出的文件大小和数量。

3.1.2 Bootstrap 执行

完成以上的配置后就可以执行 INSERT INTO 脚本,在 INSERT INTO 中需要将 Kafka Topic 组对应的离线或者实时入湖的 Hudi 表,进行简单的计算处理后以 UNION ALL 的形式写入。

这里我们通过构造不同数据类型的 MAP,将全字段的 UNION ALL 转换成几个不同类型 MAP 的 UNION ALL 和从对应的 MAP 中取出字段的方式,这样能极大地提升代码的可读性和可维护性,尤其是当 Kafka Topic 组中的 topic 较多时。

3.1.3 Bootstrap 结果

Bulk Insert 和 Clustering 对应两次 commit,其中 Bulk Insert 对应下图中的第一部分,为 deltacommit;而 Clustering 对应的是一次 replacecommit。而且从 commit 的时间可以看出,是先进行了 Bulk Insert,再 Clustering。

Bulk Insert 和 Clustering 都只生成 parquet 文件,其中 Bulk Insert 的文件是第一个版本,文件时间为 11:31,会有大量小文件;而 Clustering 会生成小文件合并之后的文件作为第二个版本,文件时间为 11:32。Bulk Insert 产生的第一个版本的小文件会在之后实时作业中按照数据的保留策略清理。

3.1.4 Flink Indexing

在 Flink 作业中执行 Indexing 用于构建 Bootstrap 后的文件索引信息并存入 state 中。作业中设置 index.bootstrap.enabled = true 开启 indexing,write.index_bootstrap.tasks 用来指定 indexing 的并行度,write.bucket_assign.tasks 可以指定 bucket_assign 算子的并行度,待第一个 Checkpoint 完成后,可以使用 Savepoint 并退出作业,这就完成了 Flink 作业的 Indexing。

3.1.5 Flink Insert

正式运行的 Flink Insert 作业中,需要去掉 index.bootstrap.enabled 参数(默认是 false),来关闭 Indexing,然后从之前 Indexing 最后的 Savepoint 启动即可正常写入数据。

Insert 中比较关键的参数有 compaction.tasks 表示执行 Compaction 的并行度,compaction.delta_commits 用来控制执行 Compaction 的周期,这也决定了 Read Optimized Query 和 RO 表的数据时延。

另外,hoodie.cleaner.commits.retainedhoodie.keep.min.commitshoodie.keep.max.commits 这三个和 Cleaner 相关的参数用来配置数据的版本淘汰策略,用户的查询时长如果超过 hoodie.keep.min.commits 的时长之后,可能会失败。

3.2 Multi-version Hudi 表

3.2.1 周期性批作业

在之前已经介绍过周期性批作业的时延情况,应尽量减少每次批处理执行的时间,也需要尽量运用各种批处理的优化策略,这样才可能缩短调度周期,降低端到端的时延。

3.2.2 Multi-version Hudi 表

Multi-version Hudi 表是一个 COW 表,需设置恰当的 hoodie.cleaner.commits.retained 值,来确保支持的最长用户查询耗时,在该时长内的查询能确保数据文件未被清理,设置得太大会有较大的存储成本压力;设置得太小,可能会因为查询文件被清理,而导致用户的查询失败。

3.3 实际效果

3.3.1 用户维表

用户维表目前只需要第 1-3 步来生成 Partial Update Hudi 表,是一个纯粹的实时 Flink 作业,只有一个 Kafka Topic 组被 Flink 作业消费,主键为 user_id。Flink 作业的 Checkpoint 周期为 1 分钟,Checkpoint 的间隔为 1 分钟,Checkpoint 耗时约 5 秒。用户维表的端到端时延约为 2 分钟,设置 hoodie.cleaner.commits.retained=50,支持用户查询的时长约 2*50=100 分钟。

相比于小时数据,在资源消耗上降低了约 40%,端到端时延从约 90 分钟降低到近 2 分钟。

3.3.2 店铺维表

简介:店铺维表需要包括流计算和批计算的所有步骤,一个 Flink 作业消费一个 Kafka Topic 组,主键为 shop_id,并将结果数据写入 Partial Update Hudi 表,Flink 作业的 Checkpoint 周期为 1 分钟,Checkpoint 的间隔为 1 分钟,Checkpoint 耗时约 10 秒,Partial Update Hudi 表的时延约 2 分钟;周期性批处理的调度周期为 15 分钟,每次执行时长约 10 分钟,Multi-version Hudi 表的端到端时延约 27 分钟,设置 hoodie.cleaner.commits.retained=5,支持用户查询的时长约 (5+1)*15=90 分钟。

Como não há dados por hora na tabela de dimensões da loja, primeiro convertemos o consumo de recursos de tarefas diárias em tarefas por hora e descobrimos que a nova solução reduziu o consumo de recursos em 54% e o atraso de ponta a ponta foi reduzido de cerca de 90 minutos a 30 minutos.

4. Resumo e Perspectivas

Este artigo apresenta uma solução de data warehouse em tempo real baseada em Flink + Hudi que, por um lado, acelera o cálculo através da computação em tempo real e, por outro lado, garante a consistência final dos dados através da combinação com processamento em lote tecnologia. E ao fornecer tabelas de resultados hierárquicas para atender aos requisitos de pontualidade de diferentes cenários, a tabela Hudi de atualização parcial produzida pelo cálculo em tempo real fornece alguns dados principais em tempo real, e a tabela Hudi multiversão produzida pelo processamento em lote fornece informações completas e mais precisas dados. No geral, o esquema atende às expectativas em termos de facilidade de uso, integridade, precisão e pontualidade, reduzindo o consumo de recursos de computação.

Mais tarde, continuaremos a tentar explorar os seguintes aspectos:

  • Esta solução foi verificada na tabela da camada DIM do data warehouse, e as soluções da camada DWD e da camada DWS serão exploradas no futuro.
  • Se o monitoramento e alarmes, recuperação de falhas e simplificação do processo Bootstrap forem ainda mais otimizados para tornar o trabalho mais estável, esta solução pode ser usada para substituir completamente as tarefas offline atuais, reduzindo custos e aumentando a eficiência.
  • É possível fornecer um mecanismo semelhante ao Watermark baseado em FlinkSQL, quando ocorre Checkpoint ou Compactação, o marcador de dados correspondente é gerado para usuários downstream fazerem dependências de agendamento.

autor deste artigo

Wanglong, Engenheiro de Pesquisa e Desenvolvimento de Dados, da equipe de Engenharia de Dados do Shopee Marketplace. Ele trabalha na área de big data há mais de 7 anos, com foco em modelagem de data warehouse, arquitetura de data warehouse offline em tempo real, arquitetura de integração de lago e armazém e outras tecnologias.

おすすめ

転載: juejin.im/post/7157926164936753188