阿里云大数据ACP(一)大数据开发平台 DataWorks

一、DataWorks 简介

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks提供全链路智能大数据及AI开发和治理服务。

在这里插入图片描述

1.1 DataWorks 的功能概述

全面托管的调度

  • DataWorks提供强大的调度功能,详情请参见调度配置。
    • 支持根据时间、依赖关系,进行任务触发的机制。详情请参见时间属性和依赖关系。
    • 支持每日千万级别的任务,根据DAG关系准确、准时地运行。
    • 支持分钟、小时、天、周和月多种调度周期配置。
  • 完全托管的服务,无需关心调度的服务器资源问题。
  • 提供隔离功能,确保不同租户之间的任务不会相互影响。

DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。

  • 数据转化:依托MaxCompute强大的能力,保证了大数据的分析处理性能。
  • 数据同步:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能。

可视化开发

  • DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。只要有浏览器有网络,您即可随时随地进行开发工作。

监控告警

  • 运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心。

1.2 DataWorks 产品特点

在这里插入图片描述

1.3 DataWorks 产品优势

在这里插入图片描述

1.4 应用场景 (助力企业搭建大数据信息平台)

在这里插入图片描述

二、DataWorks 基本概念

2.1 组织与项目空间

在这里插入图片描述

2.2 任务(Task)

在这里插入图片描述

2.3 工作流、节点、依赖关系

在这里插入图片描述

2.4 任务(Task)类别

在这里插入图片描述

2.5 实例(Instance)

在这里插入图片描述
说明:在阿里云大数据开发平台中,节点任务在执行时会被实例化,并以MaxCompute 实例的形式存在。实例会经历未运行、等待时间/等待资源、运行中,成功/失败几个状态。

2.6 资源与函数

在这里插入图片描述
说明:资源与函数都是 MaxCompute 的概念。

三、DataWorks 功能架构

在这里插入图片描述

3.1 功能模块

在这里插入图片描述

3.2 组织管理

在这里插入图片描述

3.3 项目管理

在这里插入图片描述

3.4 数据开发

在这里插入图片描述

3.5 数据管理

在这里插入图片描述

3.6 运维中心

在这里插入图片描述

四、DataWorks 角色隔离

4.1 DataWorks 中的角色

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、DataWorks 开发流程

在这里插入图片描述
在这里插入图片描述

5.1 新建项目空间

在这里插入图片描述

5.2 添加组织成员+项目成员

在这里插入图片描述

5.3 数据开发

在这里插入图片描述

5.4 数据开发流程

在这里插入图片描述

5.5 数据输入

在这里插入图片描述

5.6 数据加工

在这里插入图片描述

5.7 数据输出

在这里插入图片描述

5.8 代码发布

在这里插入图片描述

5.9 生产调度

在这里插入图片描述

5.10 生产运维

在这里插入图片描述

六、DataWorks 数据开发

6.1 数据开发总览

在这里插入图片描述
四种运行方式:
在这里插入图片描述
在这里插入图片描述
数据开发模块中除了组织管理员权限外,其余角色包括:项目管理员、开发、运维、部署和访客。

6.2 任务开发

在这里插入图片描述

6.3 任务类型

在这里插入图片描述

6.4 脚本开发

在这里插入图片描述

6.5 函数管理

在这里插入图片描述

6.6 发布管理

在这里插入图片描述

6.7 导入本地文件

在这里插入图片描述

七、DataWorks 调度配置

7.1 调度周期配置

在这里插入图片描述

7.2 调度参数配置

在这里插入图片描述

7.3 DataWorks 中的参数功能

在这里插入图片描述
调度参数获取
在这里插入图片描述

7.4 调度依赖关系

在这里插入图片描述

7.5 跨周期依赖

在这里插入图片描述
在这里插入图片描述

八、数据管理

8.1 数据管理

在这里插入图片描述

8.2 全局概览

在这里插入图片描述

8.3 数据表的管理操作

在这里插入图片描述
注意:数据管理模块中的表存储信息是离线计算得出的,默认是一天同步一次这个信息,是非实时同步,所以与真实信息不一致。

8.4 数据权限

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

九、DataWorks 运维管理

9.1 运维管理

在这里插入图片描述

9.2 运维有关的权限

在这里插入图片描述

9.3 运维概览

在这里插入图片描述

9.4 手动任务 & 周期任务

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

9.5 监控报警

在这里插入图片描述

十、DataWorks 项目管理

10.1 项目管理综述

在这里插入图片描述

10.2 项目配置

在这里插入图片描述

10.3 项目成员管理

在这里插入图片描述

10.4 调度资源管理

在这里插入图片描述
默认调度资源:默认调度资源为标志位,标记当前调度资源是否为默认调度资源。调度任务默认向该资源组提交惹任务,一个项目内有且只有一个默认调度资源。

在这里插入图片描述

原创文章 374 获赞 1045 访问量 47万+

猜你喜欢

转载自blog.csdn.net/BeiisBei/article/details/106069616
今日推荐