什么是 AWS Data Pipeline

AWS Data Pipeline 是一项 Web 服务,您可用于自动处理数据的移动和转换。使用 AWS Data Pipeline,您可以定义数据驱动的工作流,这样任务就可以依赖于前面任务的成功执行。您可以定义数据转换的参数,AWS Data Pipeline 将实施您设置的逻辑。

AWS Data Pipeline 的以下组件协同工作来管理您的数据:

  • 管道定义 指定数据管理的业务逻辑。有关更多信息,请参阅管道定义文件语法

  • 管道通过创建 Amazon EC2 实例以执行定义的工作活动,来计划和运行任务。您将管道定义上传到管道,然后激活管道。您可以编辑正在运行的管道的管道定义,并重新激活管道以使其生效。您可以停用管道,修改数据源,然后重新激活管道。完成使用管道后可以将其删除。

  • Task Runner 将轮询任务,然后执行这些任务。例如,Task Runner 可以将日志文件复制到 Amazon S3,然后启动 Amazon EMR 集群。Task Runner 已安装,并将在管道定义所创建的资源上自动运行。您可以编写自定义任务运行程序应用程序,也可以使用 AWS Data Pipeline 提供的 Task Runner 应用程序。有关更多信息,请参阅任务运行程序

例如,您每天可使用 AWS Data Pipeline 将 Web 服务器的日志存档到 Amazon Simple Storage Service (Amazon S3),然后每周对这些日志运行 Amazon EMR (Amazon EMR) 集群以生成流量报告。AWS Data Pipeline 计划每日任务来复制数据,并计划每周任务来启动 Amazon EMR 集群。AWS Data Pipeline 还确保 Amazon EMR 在等待最后一天的数据上传到 Amazon S3 后,再开始其分析,即使存在不可预知的日志上传延迟。


            AWS Data Pipeline 功能概述

猜你喜欢

转载自www.cnblogs.com/cloudrivers/p/11258614.html
AWS
今日推荐