レビュー|ストリーミングレイクハウスミートアップ北京駅(Q&A&PPTダウンロード付き)

イベントのその他の写真: https://live.photoplus.cn/live/pc/53265145/#/

7 月 29 日、ストリーミング レイクハウス ミートアップには、アリババとバイトダンスから 7 人の技術専門家が招待され、レイクに入る CDC データの実践、フリンクのワンストップのレイクとウェアハウスの統合、ストリーミング データ レイクの主な機能、および統合 RSS に焦点を当てました。 Streaming Lakehouse の最先端のテクノロジーと最新の業界慣行を紹介します。Flink、Paimon、Celeborn、Flink CDC、StarRocks などの複数のオープンソース プロジェクトが集まり、現場の 100 人以上の開発者とコミュニケーションを図りました。

クリックしてイベントビデオとスピーチPPTを表示します

アクティビティビデオレビューとPPT取得

パソコン側

Apache Flink Learning Networkにアクセスすることをお勧めします 

Apache Flink 学習ネットワーク

ビデオレビュー:

ストリーミング Lakehouse Meetup-Cloud Video-Alibaba Cloud 開発者コミュニティ

携帯端末

ビデオレビュー/PPTのダウンロード: Apache Flinkパブリックアカウントをフォローし、0729に返信してください。

オンライン質問応答

Q: レイク ウェアハウス統合アーキテクチャと MPP アーキテクチャの違いは何ですか?

回答: 最大の違いは、データ レイクがすべてのデータを保存し、クエリの柔軟性を備えていることです。ただし、MPP アーキテクチャは非常に高いクエリ パフォーマンスを必要とするため、ストレージ コストが比較的高価であり、すべてのデータを保存することはできません。

Q: オブジェクト ストレージでは、小さなファイル、高性能 CD​​C 書き込み速度、ダウンストリームでの可能な限りのリアルタイム ストリーミング メーター読み取りという 3 つの要件のバランスを取るにはどうすればよいですか? パイモンテーブルのパラメータを調整するにはどうすればよいですか?

回答: Paimon は小さなファイルを自動的にマージします。ファイル システム上の小さなファイルを重視する場合は、スナップショットの保持を減らすことができます。 ファイルの管理 | Apache Paimon 書き込みパフォーマンス | Apache Paimon

Q: Alluio と同様のものによって、ストレージの根本的なクエリ効率を加速できますか?

回答: Alluio を接続すると高速化できます。Paimon 自体はファイルをキャッシュしませんが、以下で使用するファイル システムはキャッシュされたファイル システムにすることができます。

Q: Flink CDC のパラメータを調整するための良い提案は何ですか?

回答: Flink CDC github wiki でいくつかの記事を読むことができ、いくつかのベスト プラクティス記事が紹介されています。

Q: データリンク上のすべてのパイモンテーブルにタグを同時に表示できますか?

回答: 現時点では不可能であり、各テーブルは個別に入力されます。ウォーターマークを使用しても同様のことを実現できます。 タグの管理 | Apache Paimon テーブルのクエリ | Apache Paimon

Q: 代替メッセージ キューの場合、第 2 レベルのクエリが必要な場合、Paimon ではどのように実行できますか?

回答: いいえ、現時点では遅延は 1 分程度です。コミュニティでは、第 2 レベルをサポートする組み込みキューを構築する予定です。

Q: Flink はインクリメンタル ウィンドウ処理をどのように実装していますか?

回答: インクリメンタル ウィンドウ処理の具体的な意味についてはよくわかりません。Flink SQL には、オーバー ウィンドウ、ウィンドウ集計、および通常のグループ バイの 3 種類の集計があります。一般的には、通常のグループ バイ + ステート TTL をお勧めします。

Q: Flink CDC はいつ Alibaba Cloud Hologres をサポートしますか?

回答: Hologres はオープンソース製品ではなく、SDK コミュニティの学生には馴染みがありません。現時点では、Hologres にはコミュニティに貢献する小規模なパートナーがいないため、短期的にはサポートされません。

Q: チェックポイントが失われた後に大きなテーブルが再計算されないようにするにはどうすればよいですか?

回答: チェックポイントが失われた後、すべての Flink ジョブをステートレスにやり直す必要があります。過去数日間のチェックポイントを保持しておくと、最終日のチェックポイントからの回復にそれほどコストがかからず、再実行されなくなります。大きな時計を読んでください。

Q: パイモンの置換メッセージキューの遅延時間はスナップショット生成期間と同じですか?

答え: はい

Q: Flink CDC の完全並列処理と増分並列処理を個別に設定するにはどうすればよいですか?

回答: 現時点では、フル ステージの同時実行数を設定するだけで済みます。増分を入力した後、CDC ソースの同時実行数を変更し、最新のチェックポイントからジョブを再開できます。バージョン 2.4.1 以降では、フルステージのリソースを自動的に解放できるようになったため、満量がインクリメントに入った後は、同時実行性を変更せずにリソースをある程度再利用することもできます。

質問: Oracle CDC に問い合わせてください。Oracle アーカイブ ログがいっぱいです。どうすれば解決できますか?

回答: アーカイブ ログの下流側の消費が遅いかどうかを判断する必要があります。消費に合わせて下流側の操作を調整できます。また、下流側の操作が使用されなくなっていることが確認できれば、下流側の操作をクリアできます。アーカイブされたログ。

質問: 先生にお聞きしたいのですが、Flink CDC は直接集計を行っているのですが、例えば sum の値を削除した場合、sum の値も減算されるのでしょうか?

回答: はい、Flink CDC によって吐き出される CDC データは、Flink SQL の変更ログに厳密に対応しているため、Flink SQL の集計では、データベース内の削除されたエントリに対応する値がリコールされます。

Q: ダウンストリームの時間タスクは、実行する前に Flink の特定の時間のすべてのデータが到着するまで待つ必要があります。前の 1 時間のすべてのデータの到着を監視する良い方法はありますか?

回答: 次の二次開発を自分で行い、シンクに埋め込みポイントを作成し、条件が満たされたと判断した後にカスタム ロジックを呼び出す (下流のスケジューリング システムに通知する) 必要があります。

もっと

コミュニティコミュニケーション DingTalk グループに入る: グループ番号 ⬇️ を検索し、技術的なディスカッションに参加し、リアルタイムのサポートを受けてください。

Apache Paimon 通信グループ: 10880001919

Flink CDC DingTalk 通信グループ: 33121212

Flinkバッチネイルコミュニケーショングループ:34817520

Celeborn DingTalk ユーザー グループ: 41594456

クリックしてイベントビデオとスピーチPPTを表示します

おすすめ

転載: blog.csdn.net/weixin_44904816/article/details/132095099