演習データ レイク アイスバーグ レッスン 31 では、github の flink-streaming-platform-web ツールを使用して、flink タスク フローを管理し、cdc 再起動シナリオをテストします

シリーズ記事ディレクトリ

Practice Data Lake iceberg レッスン 1 はじめに
Practice Data Lake iceberg レッスン 2 Iceberg は Hadoop の基礎となるデータ形式に基づいています
実践 data lake
iceberg sqlclient で、SQL を使用して Kafka から iceberg にデータを読み取ります (バージョンを flink1.12.7 にアップグレードします)
実践 data lake iceberg レッスン 5 ハイブ カタログの特徴演習データ lake iceberg レッスン 6 kafka からiceberg への書き込み
失敗問題解決の演習データファイル演習データ lake iceberg レッスン 10 スナップショット 削除演習データ lake iceberg レッスン 11 テスト パーティション テーブルの整合性 プロセス (数値の作成、テーブルの作成、マージ、およびスナップショットの削除)演習データ lake iceberg レッスン 12 カタログとは 演習データlake iceberg レッスン 13 メタデータデータファイルよりも何倍も大きい演習 data lake iceberg レッスン 14 データマージ (時間の経過とともにメタデータが拡張する問題を解決するため)演習 data lake iceberg レッスン 15 spark インストールと統合 iceberg (jersey パッケージの競合)演習 data lake iceberg レッスン 16 spark3 Door による氷山の認識










演習 data lake iceberg レッスン 17 Hadoop2.7、spark3 on yarn run iceberg 構成
演習 data lake iceberg 演習 18 複数のクライアントが iceberg とやり取りする 開始コマンド (よく使われるコマンド)
演習 data lake iceberg レッスン 19 flink count iceberg , 結果が出ない問題の
演習 data lake iceberg レッスン 20 flink + iceberg CDC シナリオ (バージョンの問題、テスト失敗)
練習データ lake iceberg レッスン 21 flink1.13.5 + iceberg0.131 CDC (テスト成功 INSERT、変更操作失敗)
練習データ lake iceberg レッスン 22 flink1.13.5 + iceberg0. 131 CDC (CRUD テスト成功)
練習データ lake iceberg レッスン 23 flink-sql
チェックポイントから練習データ lake iceberg を再開する レッスン 24 iceberg メタデータの詳細 練習データ
lake iceberg を分析する レッスン 25 flink sql をバックグラウンドで実行する 追加、削除、変更の効果
実践 data lake iceberg レッスン 26 チェックポイントの設定方法
実践 data lake iceberg レッスン 27 Flink cdc テスト プログラムの失敗 再起動: 前回のチェックポイントから再起動して作業を続行できる
実践 data lake iceberg レッスン 28 公共の倉庫に存在しないパッケージをローカルにデプロイする倉庫の練習 data lake iceberg レッスン 29 flink jobIdをエレガント
かつ効率的に取得する方法

data lake iceberg の練習 レッスン 31 github の flink-streaming-platform-web ツールを使用して flink タスク フローを管理し、cdc 再起動シナリオをテストする
data lake iceberg の練習 その他のコンテンツ ディレクトリ


序文

Flink が再起動し、チェックポイントから回復する必要があります。タスク エンジニアリング管理に関しては、そのようなツールのセットを自分で開発するのは時間がかかります. 小規模な企業にとってはありがたいことです. そこで、flink-streaming-platform-web をテストし、sql をサポートするオープン ソース ソリューションを見つけました。 、jar、さまざまな A クラスター モードの提出、個人的なテストに利用可能


1. オープン ソース コンポーネント flink-streaming-platform-web を使用して flink タスクを管理します

flink-streaming-platform-web オープン ソース コンポーネントを使用して flink タスクを管理する ソース
コード アドレス: https://github.com/zhp8341/flink-streaming-platform-web
関連する使用手順: 公式 Web サイトは非常に詳細です。確認してください。公式ウェブサイト

2. flink-streaming-platform-web のテスト 再起動時にチェックポイントから回復する

コア ロジック: mysql から iceberg への読み取り

1. コード、mysql からアイスバーグに読み込まれる

  1. Mysql 生データ
    ここに画像の説明を挿入
    3. プログラムを開始します。
    4. Iceberg テーブルの結果を確認し、同期されていることを確認します。
    ここに画像の説明を挿入
    5. 新しく追加された変更データをテストする

次のように id=5 を追加し、データを更新します。

INSERT INTO `stock_basic` VALUES ('5', '000007.SZ', '000007', '*ST全新', '深圳', '酒店餐饮', '19920413', null);

update stock_basic set actural_controller='me me me' where i='0';

氷山を確認すると、変更がキャプチャされていることがわかりました。
ここに画像の説明を挿入

6.再起動して、チェックポイントから回復できるかどうかを確認します

ここに画像の説明を挿入
[復元] をクリックすると、次のダイアログが表示されます:
ここに画像の説明を挿入
[復元] をクリックし、flink のメイン ページを更新して、タスクが正常に開始されることを確認します。
ここに画像の説明を挿入

  1. シンク テーブルに移動してデータを確認し、繰り返し使用されているかどうかを確認します。
    重複がないことがわかりました。
    ここに画像の説明を挿入

  2. プログラムを停止した後、再テストし、それにいくつかのデータを書き込み、チェックポイントからの回復後に変更されたデータがキャプチャされるかどうかを確認します

ステップ 1: savePoint を記録する
ステップ 2: プログラムを停止する
ステップ 3: 更新を挿入する 変更を削除する

INSERT INTO `stock_basic` VALUES ('6', '000008.SZ', '000008', '神州高铁', '北京', '运输设备', '19920507', '国家开发投资集团有限公司');
update stock_basic set actural_controller='汉武帝' where i='1';
delete from stock_basic where i='0';

ここに画像の説明を挿入

ステップ 4: プログラムの復元 復元
ここに画像の説明を挿入
後、チェックポイントを待ち、spark-sql をチェックインし、変更を見つけてキャプチャします。
ここに画像の説明を挿入

要約する

この flink-streaming-platform-web は本当に使いやすいです! 楽しみに使う

おすすめ

転載: blog.csdn.net/spark_dev/article/details/124469641