DBT(データビルド・ツール)フレームワークの概要

DBT(データビルド・ツール)例の説明:

1は、ELT(データ抽出、データのロード、データ変換)フローを処理するデータは、DBTは、主フレームT(のみ認識公式T)およびLを作るために使用されている主構成ファイル、データLとTの定義に依存しています。
     たとえば、次の設定は、用紙経路の構成データファイルは、データファイル形式(列名)は、データ(ユニーク、NOT_NULL、accepted_values等)、データ変換処理テンプレートの種類を検出します。
               DBT自動処理するためにコンフィギュレーションファイルに基づいてフレームデータ:データ変換処理を行うためにデータ・ウェアハウスにロードデータファイルを、プローブのデータ仕様は、分析のためのデータセットを生成するために使用することができます。
.SQL変換ロジックは、データの処理を定義するために使用される; 2、.SQL、.ymlアイテム情報、データリンク情報、データフォーマット、データ型情報検出を定義するために使用されるプロファイル、.yml、の2種類があります。
図3に示すように、処理フローが階層分割で行う全体のデータ:データ層のロード、データの前処理層、レイヤ・データ・マート、プロファイルは層を構成するために定義されている各層に存在します。
文書データの処理4、出力:データ・ウェアハウスにロードされたオリジナルデータ、データ検出.yml定義されたタイプに従って、品質データは、探査や生産データプローブの説明を行う、図1。
                                          全体的なデータ処理が完了すると、データ・モデルは、血液およびデータ・モデルの定義、図2、図3との関係を説明するレポート/マップデータを生成することができます。
DBTの利点:
 
図1に示すように、関心のコード実行順序なしで、テーブルおよびビューを作成する心配することなく、上記のコードのみを使用してロジックを開発する目的の開発を説明したように公式サイト、DBTの自動フレームワーク。
2、DBTデータフレームが定義明細書および開発プロセスがあり、アイテムは、規範的な制約であることができます。
図3に示すように、DBTフレームは、抽象化された一般的な機能であった複雑さ及び反復符号化、など減らすことができますコードの開発を回避するために、データプロファイリング、設定ファイルに定義されているプローブのコンテンツ、DBTプローブの結果を自動的に出力し、データが削減プロファイリング難しさ;
DBTは不十分です。
1、DBTは、このような、CSVファイルなどのファイルからの生データを、読み取ることができます。
2、などのデータウェアハウス少なすぎる種のサポート:のPostgres、プレスト、スパークなど、他のデータ・ウェアハウスであれば、プラグインを開発するDBTの必要性。
図3に示すように、コンフィギュレーション・ファイル.SQLフォーマットに従って定義されるロジックコードを、データ処理、実際のプロジェクト、コードデータのラインのリーチ数百は、構成仕様.SQLファイル形式で、コード管理の複雑さが増加し、複雑なプロジェクト。数は、コードコーミングや管理の複雑さをもたらす、多くのSQLプロファイルになります。
図4に示すように、実際のプロジェクトデータ・オブジェクト・フィールドはよりなり、.yml設定ファイルのフィールドを定義し、それ以上に複雑になるであろう。
 
 
 

おすすめ

転載: www.cnblogs.com/rudy123/p/12153992.html