ETL開発者は、設定の質問に直面しています

オリジナルリンク: https://my.oschina.net/u/1186503/blog/1633715

ETLは、(非常に詳細に!!!)説明します

 

ETLは、洗浄後のデータウェアハウス変換にロードするデータ抽出によるビジネスシステム、で、その目的は、企業内に分散され、乱雑、規格が統一されていないデータ統合は、一緒に、意思決定のための分析的基礎を提供します。 ETLのBIプロジェクトは重要な側面です。一般的に、BIプロジェクトでは、ETLプロジェクト全体の時間の少なくとも3分の1を過ごすことになり、ETL設計品質が直接BIプロジェクトの成否に関係しています。       

  データ、ロードデータを転送する、データ抽出:ETLは、3つの部分で設計されています。また、ETL時間のこの3部構成の設計に着手しました。データ抽出は、ODSに様々なデータソースから抽出された(オペレーショナルデータストア、オペレーショナルデータストア)される - プロセスが洗浄されてもよく、いくつかのデータ変換を行うために)、抽出法の離脱中に異なる選択を必要とします、ETLできるだけ効率を動作させる改善します。ETLは、3つの部分で、それは、一般的に、全体的なワークロードETL 2/3のこの部分の最も長い部分「T」を(洗浄、変換を変換)かかり。データは洗濯DW(データウェアハウス、データウェアハウス)に行くに直接書き込まれた後のデータのロードは一般的に行われています。

  一般的に三つの方法で使用されるETLを、達成するためのいくつかの方法があります。一つは、ETLツールによるものである(例えばOracleのOWBとして、SQL Server 2000ののDTSは、SQL Server2005 SSISサービス、インフォマティクス、など)を達成するためには、一つはSQLの方法は、他のは、ETLツールとSQLの組み合わせである、です。最初の2つの方法は、それぞれ複雑なコーディング作業、スピードを上げ、難易度を下げるが、柔軟性の欠如を遮蔽し、すばやくETLプロジェクトをビルドするためのツールで、自分の長所と短所を持っています。方法のSQLの利点は、ETLは、作業効率を向上させ、柔軟であるが、複雑コーディング、技術的要件が比較的高いです。第三は、前方の利点の二種類の組み合わせであり、それは大幅ETLの開発速度と効率を向上させます。

  データ抽出(抽出物)

  このセクションでは、研究段階で多くの作業を行う必要があり、我々は最初に、様々な業務システムは何DBMS、手が手動でデータを、どのくらいのデータの存在、非構造の存在を実行しているいくつかのビジネス・システム、データベース・サーバからのデータを見つける必要があります情報は、データ抽出の設計を収集することができるデータ、等、の。

  図1に示すように、データベースシステムは、同じデータソースDW処理方法を記憶します

  データソースのこのタイプの設計では比較的簡単です。通常の状況下では、DBMS(SQLServerの、Oracleは)、データベース・リンク機能を提供するデータベースサーバーと、元DW業務システムとの間の関係に直接リンクを確立Selectステートメントにアクセス直接書き込むことができます。

  異なるデータソースDWデータベース・システムの処理方法2、

  このようSQL ServerとOracleの間など - データソースのこのタイプのため、通常の状況下でも、ODBCの方法を介してデータベース・リンクを作成することができます。データベースリンクが確立できない場合、それは、2つの方法で達成することができ、一つは工具エクスポートデータソースまたは.XLS .txtファイルを介して行われ、そして、ソースシステム内のODSにファイルをインポートします。別の方法は、プログラミング・インタフェースによって達成されます。

  図3に示すように、ファイルの種類(.txtファイル、* .XLS)のデータソース、サービス担当者は、データベースにデータをインポートするデータベースツールを使用して訓練され、その後、指定されたデータベースから抽出することができます。あるいは、それはまた、ツールによって達成することができます。

  4、増分更新の問題

  大規模なデータ・システムの場合は、増分抽出考えなければなりません。通常の状況下では、システムは、トラフィックサービスが発生した時間を記録します、我々は、増分マークに使用することができ、それぞれの抽出前の最大記録時間のODSは、最初にこのシステムに基づいて、その後決定され、すべてのレコードにサービスを提供するために要する時間は、時間より長いです。スタンプのタイムスタンプサービスシステムを用いて、通常の状況下で、どのサービスシステムていない又は部分。

第二に、クリーニングのデータ変換(クリーニング、変換)

  一般に、ODS、DW 2つの部分にデータウェアハウス。通常の実施は、重合が計算され、いくつかのビジネスルールされ、ODSプロセスからDWに変換し、濾過したODS洗浄、ダーティデータと不完全データからサービスシステムを作ることです。

  1、データクリーニング

  データクレンジングタスクは、所轄官庁への要求、フィルタリングされた結果を満たしていないデータをフィルタリングする、または補正後の事業単位で間引き再びフィルタリングするかどうかを確認することです。

メインデータの要件を満たしていない不完全なデータ、間違ったデータを、データ三つのカテゴリーの重複です。

  (1)不完全なデータ:このカテゴリには、枝、地域の顧客情報の名前が欠落しているように、ベンダーの名前など、主にいくつか欠けている情報データを、持っている必要があり、主要なビジネスシステムと材料のリストがそうで一致し、することはできません。このタイプのデータのために定められた時間内に完了したことを必要とし、それぞれ、異なる顧客に提出行方不明の書き込みExcelファイルの内容によってフィルタリングされます。データウェアハウスを書き込む前に完成。

  (2)エラーデータ:このタイプのエラーの原因は、ビジネス・システムで生成され、直接データベースの結果、そのような全角数字入力、バックデータ列として数値データを書き戻す決定されない入力を受信しなかった後に、完全ではありません操作、間違った日付形式、日付、およびその他のクロスボーダーを入力します。問題のデータを可視文字ではありません前と後のデータのこのタイプは、、、全角文字に似て分類されるべきであるだけでSQL文を書くことで道を見つけ、その後、補正後の抽出するために、顧客サービスシステムを依頼します日付の形式が正しくないか、このタイプの日付の範囲外のエラー障害ETL実行につながることができ、このタイプのエラーは、権限のある当局に、邪魔にならないよう補正の期限をSQLデータベースのビジネス・システムを選択する必要があり、その後、補正後の抽出します。

  (3)データを複製:このタイプのデータの-特に寸法表は、この場合に表示されます-顧客が特定して整理できるようにするために、アウトリードのレコードのすべてのフィールドを繰り返すことになります。

  データクレンジングは、数日以内に完了することができません反復的なプロセスである、唯一の定数が発見し、問題を解決します。改正は、一般的に、データをフィルタリングExcelファイルを作成したり、データテーブルに書き込まれたデータをフィルタリングすることを確認するために、お客様が必要な場合は、ろ過するかどうか、あなたはできるだけ早くそれらを促し、その日のビジネスユニットの初期段階でメールフィルタリングデータのETL開発を送信することができます正しい間違いなく、今後の検証データのための基礎として使用することができます。データクレンジングは注意が、有用なデータをフィルタリングするフィルタごとに検証ルールを実行し、ユーザーに確認することではありません必要があります。

  図2に示すように、データ変換

  データ変換の主なタスクは、一貫性のないデータ変換、データの粒度変換だけでなく、いくつかのビジネスルールを計算しています。

  (1)一貫性のないデータ変換:このプロセスは、統合されたプロセスであり、このような同一のベンダーコードする課金システムなどの異なるビジネスシステム統一データ、同じタイプのXX0001で、CRMコードでYY0001ので、抽出オーバー後の統一のコーディングに変換します。

  (2)データの粒度の変換を:ビジネスシステムは、典型的には、非常に詳細なデータを格納し、データがデータウェアハウスを分析するために使用され、データは非常に詳細である必要はありません。通常の状況下では、それは、データウェアハウスのビジネス・システム・データの粒度に応じて重合されます。

  (3)ビジネスルールを計算する:別の企業は時々 、単純な簡単な計算を行うことができますされていない別のビジネスルール、異なるデータ指標を、持って、この時間は、データのETLでこれらの指標を計算する必要があります彼らは、分析のためのデータウェアハウスに格納した後。

三、ETLログ、アラートを送信

  1、ETLログ

  ETLログは、次の3つのカテゴリに分かれて。

一つは、実行履歴であるログは、各ステップの一部は、ETLの記録、各ランの各ステップの録画開始時刻、アカウントの実行形式のデータの行数の影響の実行中に実行され、。

一つは、エラーログであるとき、モジュールエラー、書き込みエラーログ、各間違った時間を記録し、間違っていると、誤った情報や他のモジュール、。

第三のカテゴリーは、全体のログログでのみETLは、時間、終了時間、成功するかどうかの情報を開始したレコード。あなたはETLツールを使用している場合は、ETLツールが自動的にこの種類のログもETLログの一部として使用することができ、いくつかのログを生成します。

伐採の目的は間違っていた場合に何が悪かったのかを知るために、ETLの操作を知っている準備ができています。

  2、送信された警告

  ETL間違っている場合は、ETLのエラーログを形成し、システム管理者は、警告を送信するだけでなく。警告を送信するためのさまざまな方法は、一般的なエラーのトラブルシューティングするために、管理者のためのエラー情報とともに、システム管理者にメッセージを送信するために使用されます。

  ETLのBIプロジェクトは重要な部分であり、そしてそれは長いプロセスであり、唯一の定数は、問題を特定し、問題を解決し、より効率的にETLの実行を行うために、後の開発BIプロジェクトのために、正確かつ効率的にデータを提供します。

追伸

     データウェアハウスシステムのために、ETLは、重要な部分です。大きい、と述べたETLデータ統合ソリューションは、小さなは、データダウンツールであると述べましたデータ移行の処理以来限りリコール作業は、変換作業は本当にたくさんでてきます。しかし、これらのワンタイムの仕事や作業は、実質的にデータの非常に少ない量です。しかし、データウェアハウス・システムでは、ETLは理論値の一定のレベルまで上昇し、そしてオリジナルの使用異なるツールが離れてチッピング。何人の反転データ中に、見ることができます名前と異なっているが3つの段階、E、T、L表現抽出、変換、ロードに分けられています。

実際には、プロセスは、異なる宛先への異なるデータソースからのデータETLデータフローの処理です。しかし、データウェアハウスでは、

ETLは、いくつかの機能を持っています

まず、データの同期は、それはそれは一定の周期に応じて実行する定期的な活動であり、そして今でもそこの人々は、リアルタイムのETLの概念を提唱し、いない1回の完全なデータがプルダウンされています。

第二に、データの量は、一般にE、TおよびL.に巨大な、価値分割処理のデータフローであります

    多くの洗練されたツールのETL機能、その良いか悪いかはもちろんのことがあります。アプリケーションの観点からは、ETLプロセスは、実際にデータウェアハウス・プロジェクトのためのツールは非常に複雑ではなく、偉大な利便性、利便性とメンテナンスの容易さ、特に発展をもたらします。これらのツールで迷子になる一方で、開発者が簡単にできます。例えば、VBは非常に単純な言語であり、特に高速で使用するプログラミングツールを使用することは非常に簡単ですが、VB本当のマスターは何?マイクロソフトに設計された製品は、通常、あなた自身が自分自身をだますでしょうかのように、この原則の下で、「愚か者のように、ユーザは、」物事Microsoftは、確かに非常に使いやすいですが、開発者のために、それが本当にあるという原則を持っています愚かな。ETLツールが同じで、これらのツールは、私たちが主に開発効率を向上させるためには、ルールに焦点を当て、私たちのためのグラフィカル・インタフェースを提供します。効果の使用から、我々は特定のデータに対処するために非常に迅速に仕事を構築するために、これらのツールを使用していますが、全体的に、必ずしも彼の全体的な効率がはるかに高くなりますか。主な問題は、ツールではありませんが、設計、開発スタッフインチ 彼らは、ETLの本質を探求するのではなく、ツールで失われました。これらのツールは、環境が、その成功を持つようにバインドされているアプリケーションであれば、非常に多くのアイテムを申請すると言うことができる、それはETLの性質を反映しなければなりません。私たちは別の仕事でその背後にあるものは、これらのツールの表面の簡単な使用して考える意味、我々は最終的にそれに来て表示されていない場合、彼らはまだ仕事の膨大な量を持って統合します。私たちは皆、「理論と実践」は、やや分野を超えた場合では、我々は理論的なレベルで一定の高さに到達しなければならないことを知っています。

ます。https://my.oschina.net/u/1186503/blog/1633715で再現

おすすめ

転載: blog.csdn.net/choy9999/article/details/100591142