系列文章目录

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

系列文章目录
前言
一. 测试思路
二、案例测试
总结

前言

在这里插入图片描述

上一课中，讲到增量更新，小弟的boss问到，增量实现，是读增量数据还是把历史数据也重新读了一次？暴击，按照我的理解，就是读增量。。。，大佬是不认按照理解的！好吧，测试一下，故有本文，读者感到我滴血的心嘛，试问大家有没有这种经历。。。

一. 测试思路

接上文的kafka案例继续, 生产者往kafka发送数据， flink-sql把kafka的数据落地到iceberg, 本节继续从iceberg消费
测试： select * from hive_iceberg_catalog.ods_base.IcebergSink_XXZH /+ OPTIONS(‘streaming’=‘true’, ‘monitor-interval’=‘1s’)/
这个sql的增量算子触发时，是全量还是增量

二、案例测试

1. 代码

 
     public static void main(String[] args) throws Exception {
    
    
        //TODO 1.准备环境
        //1.1流处理环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        //1.2 表执行环境
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        String sql2 = "CREATE CATALOG hive_iceberg_catalog WITH (\n" +
                "    'type'='iceberg',\n" +
                "    'catalog-type'='hive',\n" +
                "    'uri'='thrift://hadoop101:9083',\n" +
                "    'clients'='5',\n" +
                "    'property-version'='1',\n" +
                "    'warehouse'='hdfs:///user/hive/warehouse/hive_iceberg_catalog'\n" +
                ")";
        String sql3 = "use catalog hive_iceberg_catalog";
        String sql4 = "CREATE TABLE IF NOT EXISTS ods_base.IcebergSink_XXZH (\n" +
                "    `log` STRING,\n" +
                "\t`dt` INT\n" +
                ")with(\n" +
                "    'write.metadata.delete-after-commit.enabled'='true',\n" +
                "    'write.metadata.previous-versions-max'='5',\n" +
                "    'format-version'='2'\n" +
                " )";
      String sql6 = "select * from  hive_iceberg_catalog.ods_base.IcebergSink_XXZH /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ ";

        tableEnv.executeSql(sql2);
        tableEnv.executeSql(sql3);
        tableEnv.executeSql(sql4);
        tableEnv.executeSql(sql6).print();



        //TODO 6.执行任务
        env.execute();

    }

2. 启动程序

控制台输出了历史数据

| +I |                              e |    20230101 |
| +I |                              e |    20230101 |
| +I |                              e |    20230101 |
| +I |                             >e |    20230101 |
| +I |                              e |     2023010 |
| +I |                            abc |    20240101 |
| +I |                           abcd |    20240101 |
| +I |                           abcd |    20240101 |
| +I |                              ; |      (NULL) |
| +I |                             ； |      (NULL) |
| +I |                              ; |      (NULL) |
| +I |                             ； |      (NULL) |
22/06/16 21:09:21 INFO compress.CodecPool: Got brand-new decompressor [.gz]
| +I |                              1 |    20220601 |
22/06/16 21:09:21 INFO compress.CodecPool: Got brand-new decompressor [.gz]
| +I |                              2 |    20220601 |

3. 启动生产者，观察结果

[root@hadoop101 lib]# kafka-console-producer.sh --broker-list  hadoop101:9092,hadoop102:9092,hadoop103:9092  --topic test_xxzh

输入一个：

2,20220606

观察控制台, 发现增量多了一条：

22/06/16 21:15:48 INFO compress.CodecPool: Got brand-new decompressor [.gz]
| +I |                              2 |    20220606 |

总结

select * from hive_iceberg_catalog.ods_base.IcebergSink_XXZH /+ OPTIONS(‘streaming’=‘true’, ‘monitor-interval’=‘1s’)/

这种语法确认是增量处理数据，而不是从新读一次所有数据

实践数据湖iceberg 第三十五课基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量

系列文章目录

文章目录

前言

一. 测试思路

二、案例测试

1. 代码

2. 启动程序

3. 启动生产者，观察结果

总结

猜你喜欢

实践数据湖iceberg 第三十五课 基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量

系列文章目录

文章目录

前言

一. 测试思路

二、案例测试

1. 代码

2. 启动程序

3. 启动生产者， 观察结果

总结

猜你喜欢

实践数据湖iceberg 第三十五课基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量

3. 启动生产者，观察结果