協議、協力を歓迎!weix:wonter
用語集:
CDCでのときに、ソーステーブルも変更データキャプチャ(チェンジ・データ・キャプチャ)として知られているCDCは、INSERT、UPDATE、およびDELETE DELETE更新活動INSERTログテーブルに挿入データを開きます。CDCが提供するチェンジ・データ・キャプチャの変更テーブル、クエリ機能を取り込むことにより、CDCプロセスは、我々は、このデータの一部をキャプチャすることができます。
データウェアハウスにソース・システムからデータをロードするデータウェアハウスETL(抽出、変換、ロード)。先のプロセスに(抽出物)を介してソース端末から抽出されたデータ、転置(変換)、負荷(荷重)を記述するために使用されます。(やかん、水路、sqoop)含まれているツールを使用してください。
ケトルJAVAは比較的安定を持っているなど、いくつかの単純なまたは複雑なデータ抽出、品質管理、データ・クレンジング、アスペクトデータ変換、データのフィルタリングを行って、その後、ETLツール、グラフィカルサポートGUIデザイン・インターフェース、ワークフローの形で流れるベースパフォーマンス。
水路Clouderaのは、データを収集するためのカスタマイズされたデータフリューム送信者ログシステムの様々なタイプをサポートするために、高可用性、信頼性の高い、分散大規模なログ収集、集約及び伝送システムに提供され、同時に、水路を提供します単純なデータ処理、及びデータ受信者の多様に書き込む機能(カスタマイズ)です。
Sqoop Apacheのオープンソースソフトウェアは、主にHADOOP(ハイブ)とのデータの受け渡しのための伝統的なデータベース(MySQLやPostgreSQLの...)との間で使用されます。
直接リレーショナルデータベースを通信するために大きなデータクラスタとの間の大容量データ伝送に適用することができます。
比較データ統合
データ統合の2つのオプションがあります。
一つは、ESBデータ統合インタフェースモード経由で、利点は、データの適時性が高いですが、最大の欠点は、業務システムインタフェース変換に依存して、多くの場合、コストおよびベンダーのインターフェースを必要とします。もう一つの方法は、ETLデータの仕方によって抽出され、CDCの方法によりデータのリアルタイム同期を実現するために、利点は、ビジネス・システムに依存しない、業務システムのデータベースにのみ統合を達成することができます許可を取得する必要があります。
CDC + ETLデータ統合
最初のステップ:いくつかの中間の位置に、履歴データデータベースケトルを抽出します。
GUIは、当該技術分野の最初のラウンドのためのグラフィカルデザインインターフェイスはないビジネス・プロセス・オペレーション、安定した、かつ効率的に実施態様ないサポート。
ステップ2:いくつかの中間倉庫データベースへのサービス・システムのブートイメージデータベースCDC機能、リアルタイム同期データ。
画像データベースのログファイル、データベースがパース再生動作を読み取ることで技術は、トラフィックデータキャプチャの変更を実現しています。ログは、読み取りシステムの最大のトラフィックへの影響を低減するためにオーバーヘッドI / Oの少量のみを再生、解析され、他の操作はミラー・データベース上で実行され、サービスデータベース。
第三段階:Sqoopにより中間Haoopからデータベースに履歴データを抽出します。
李東は、データウェアハウスの構成ディレクトリのマッピング関係を使用するため、クロスデータベースが自動的に抽出されたSQL文を生成します。
ステップ4:CDC機能によって、Hadoopのへのデータベーステーブルのリアルタイム同期。
基本となるテーブルには、データ・ディクショナリ表およびその他の定期的なメンテナンスは、テーブルを変更します、スタッフ情報テーブルです。
ステップ5:リアルタイムのHadoopを抽出するために、増分データによる水路レコードテーブル。
運転状態が増分で添加される修正するために複数のコンテンツとなるデータレコードテーブルのタイムスタンプテーブルを運びます。
ステップ6:テーブル内のデータ
湖のデータセットは、カスタムElasticSearchインデックス生成されたフィールドを必要なデータマートをチェックし、自動的にデータ・インタフェースを生成する、事業活動に応じて、データサービスを提供します。
データ・アプリケーション
推奨読書:
病院情報統合プラットフォーム(ESB)の実装、建物プログラム
病院情報統合プラットフォーム(ESB)データ統合構築プログラム