AWSデータパイプラインとは何ですか

AWSデータパイプラインを使用すると、自動的にデータ処理や変換を移動するために使用できるWebサービスです。AWSデータパイプラインを使用して、あなたはデータ駆動型のワークフローを定義することができ、このタスクは前のタスクの実装を成功に依存することができます。あなたは、データ変換パラメータ、あなたが実施の形態を設定するAWSデータパイプラインのロジックを定義することができます。

次のコンポーネントAWSデータパイプラインは、あなたのデータを管理するために協力します:

  • チャンネル定義は、  サービスデータ管理ロジックを指定します。詳細については、パイプライン定義ファイルの構文を

  • パイプライン計画およびタスクを実行するために、定義された作業活動を実行するためにAmazon EC2インスタンスを作成することもできます。あなたはパイプにアップロードパイプを定義し、パイプラインをアクティブにします。あなたは、パイプラインのカスタムパイプラインの実行を編集し、有効にするためにパイプラインを再活性化することができます。あなたは、パイプラインを無効にし、データソースを変更して、パイプラインを再活性化することができます。パイプラインの使用が終了した後に削除することができます。

  • タスクランナー  ポーリングタスクは、その後、これらのタスクを実行します。たとえば、タスクのランナーは、Amazon S3にログファイルをコピーし、アマゾンEMRクラスタを開始することができます。タスクランナーがインストールされ、作成した定義されたリソースのパイプライン上で自動的に実行されます。あなたはまた、提供するために、タスクランナーアプリケーションAWSデータパイプラインを使用することができ、プログラム・アプリケーションを実行するために、カスタムタスクを書くことができます。詳細については、プログラムを実行するタスクを

たとえば、トラフィックレポートを生成するために、毎日AWSデータパイプラインアマゾンシンプルなストレージサービス(アマゾンS3)、その後、これらの毎週のログは実行アマゾンEMR(アマゾンEMR)クラスタへのWebサーバーのログ・アーカイブを使用することができます。AWSデータパイプライン計画の毎日のデータをコピーするタスク、および毎週のタスクアマゾンEMRクラスターを開始する予定。AWSデータパイプラインはまた、アマゾンS3にアップロードされたデータの最後の日を待って確認してくださいアマゾンEMRことを確認した後、予測不可能なログアップロード遅れがあっても、その分析を開始しました。


            AWSデータパイプライン機能の概要

おすすめ

転載: www.cnblogs.com/cloudrivers/p/11258614.html