クーズー、HUDIとデルタ湖の比較

クーズー、HUDIとデルタ湖の比較

クドゥ、HUDIデルタ湖は、現在変更して再検索をサポート行レベルのデータ記憶方式の付加および欠失より人気があり、紙は、三間で比較しました。

ストレージメカニズム

クドゥ
MemRowSetと呼ばれるメモリに格納された最新のデータ(ラインストレージは、主キーに基づいて順序付け)、
ディスクへMemRowSet(1Gまたはデフォルト120S)を充填したときにフラッシュ、DiskRowSet(カラムストレージ)が形成されています。
タブレット圧縮操作は、並べ替え、定期的にDiskRowSetを実施し
、更新、削除に明確なDeltMemStoreデータを、そしてDiskRowSetの数を減らします。

HUDI
HUDI軸が異なる時間にデータセットに対して実行されたすべての操作の記録を保持します。
HUDIは、ストレージの最適化の2種類があります。
最適化(コピーオンライト)を読む:各コミット後に柱状ストレージ(寄木細工)に最新のデータ圧縮されます。
書き込みの最適化(読むにマージは):増分データのためのラインメモリ(アブロ)、定期的にバックグラウンドを使用しますそれは、ストレージ列を固め。

湖デルタ
にADDFILEこのFileActionを添加しながら、デルタ湖データは、メモリに格納されていないが、新しいデータファイルに直接書き込まれたログをコミットし、新しいデータがロードされると、スナップショットは読み取り/トランザクションログの更新を作成しますファイル情報。

データの読み取り

クドゥ
マスター、マスターチェックテーブルへのクライアント要求、スキーマおよびマスターキーが存在し、カタログ表を照会することによって、アドレス、TSERVERステータスメタデータ情報戻りTSERVER対応する錠剤は、クライアントがTSERVERとの接続を確立し、メタデータによって主キーを発見行セット、リターン取引に対応します。

HUDI
HUDIは、レコード内のキーの存在をサポートするためのインデックスを維持して、新しいレコードがすぐに対応するファイルIDにマッピングされたための鍵となります。インデックスは、デフォルトのブルームフィルタプラグインですが、あなたはHBaseのを使用することができます達成。
HUDIは3つのクエリビューを提供します。
読むの強化ビュー:データのみ保存コンパクション列を提供することと、
デルタビュー:一回だけコミット/圧縮の前に増分データを提供し、
ライブビュー:ラインの最適化と最適化、データの書き込みに格納されたリード・ストレージ・データを含むカラム。

デルタ湖
トランザクションログのチェックポイント・ファイル(寄木細工の形式)と文書コミット(JSON形式)のそれ以降のバージョン、現在のビルドの最新のスナップショットを読み取ることでは、スナップショットは、すべてのデータファイルの現在のバージョンのアドレスが含まれています。
デルタ湖はスパークとスパークの実現と同じ読み取り最適化に基づいています。

データの更新

クドゥ
メモリ内のデータが(MemRowSet)、情報をリストする変異が行に書き込まれている場合、マスタテーブルへのクライアント要求は、メタデータTSERVER対応タブレットに接続され、メタデータ情報を予め書き込まれ、もしディスク(DiskRowSet)上、それが書かれたDeltMemStoreの情報を更新します。

HUDI
HUDI PRECOMBINE_FIELD_OPT_KEY、RECORDKEY_FIELD_OPT_KEYとPARTITIONPATH_FIELD_OPT_KEYを指定するためのデータを書き込むとき。
RECORDKEY_FIELD_OPT_KEY:各レコードの一意のIDは、複数のフィールドをサポートし
PRECOMBINE_FIELD_OPT_KEY:組み合わされたデータを使用する場合、RECORDKEY_FIELD_OPT_KEY同じ、デフォルトのフィールドはPRECOMBINE_FIELD_OPT_KEYライン構成が最大値に対応する属性を取る;
PARTITIONPATH_FIELD_OPT_KEY:データを格納するのに使用パーティションフィールド。
HUDIデータ更新および挿入データ(書き込みとほぼ同じ)に非常に類似して、更新データは、データがRECORDKEY_FIELD_OPT_KEYに従って、PRECOMBINE_FIELD_OPT_KEYとPARTITIONPATH_FIELD_OPT_KEY三つのフィールドをマージします。

デルタ湖
でのコミットログにADDFILEを記録しながら、デルタ湖は、データが更新されたデータファイルは、データと新しいファイルで更新その他の不要で更新されたファイルを更新されます見つけるために、書き込みデータに(新ファイル)とREMOVEFILE(古いファイル)アクションの2種類。

他の

- 必見 厳しいです デルタ湖
インデックスの使用 それはあります それはあります ノー
メタデータの位置 主人 ルートフォルダ ルートフォルダ
バージョンロールバック サポートしていません。 HUDIそこタイムライン、バージョンのロールバックのサポートを デルタ湖バージョンのロールバックをサポートしているトランザクション・ログ・システムがあります
リアルタイム クーズーの使用メモリが新しいデータを格納するために、リアルタイムの高 HUDI書き込みに最適化されたストレージ、リアルタイムの高 デルタ湖は、新しいデータをコミットするためにクエリを送信するために、比較的低いリアルタイムに完了しなければなりません
Hadoopのファイルシステムのサポート それは、独自のストレージサーバーを管理するためにいかだで、クーズーをサポートしていません。 サポート サポート

おすすめ

転載: www.cnblogs.com/kehanc/p/12153409.html