DAYU 详细介绍

DAYU典型的端到端数据运营流程如下图所示:
    

步骤1:准备工作
    如果您是第一次使用DAYU,请参考准备工作,完成注册华为云账号、创建IAM用户、进入DAYU控制台购买DAYU实例、创建工作空间、添加工作空间成员和角色等一系列操作。然后找到对应的工作空间,即可开始数据开发与运营。
    
步骤2:创建数据连接和数据库
    根据业务需求以及业务数据的特点,选择用于数据存储与分析的云服务。然后,我们就可以创建数据连接和用于存储源数据的目标数据库了
    
    选择用于数据存储与分析的云服务
        DAYU平台当前支持的数据连接类型有以下几种,在本示例中,我们选择数据湖探索(DLI)服务:
            数据仓库服务(DWS)
            数据湖探索(DLI)
            MapReduce服务(MRS HBase)
            MapReduce服务(MRS Hive)
            MySQL
    创建数据连接
        在使用DAYU进行数据开发时,我们将会连接所选取的云服务并一步一步创建数据对象,因此,我们首先要在“管理中心”模块中创建数据连接,同时还要在“数据开发”模块中创建用于存储源数据的数据库。
        
步骤3:规范设计
    在使用DAYU智能数据湖运营平台做业务开发时,首先,我们要根据业务需求对原始数据进行分析和维度建模,数据模型建立好了,后续的数据集成、数据开发等过程才可以顺利开展。在本章节中,我们将为您介绍如何在DAYU平台的“规范设计”模块中实现数据的维度建模。
    
    1. 数据分析与建模
        数据分析与建模的流程,一般为:        
       
        
        1.1 设计维度
            维度是用于观察和分析业务数据的视角,来源于属性,并且多数具有层级结构。每一个维度有维度属性,建立了维度后,就可以基于维度创建相应的维度表,每一个维度属性就是维度表中的一个字段。我们必须选取一个维度属性作为主键,因为事实表与维度表通过主外键实现关联。
        1.2 设计事实表
            事实表用于存储事实数据。事实表的字段顺序不一定和原始数据一致,后面在“数据集成”模块中将数据导入事实表中时,可以将原始数据表和事实表的字段做一个映射。
            通常情况下,在原始数据中可能存在一些不合法的数据,这些数据对于统计分析并无意义,因此,我们通常会将原始数据进行一次数据清洗后再将处理后的数据存入事实表中。为了实现数据清洗,可以先创建一个临时表,将原始数据导入该临时表中,然后再对临时表中的数据根据过滤条件进行筛选后再存入事实表中。
            
        1.3 设计指标
            指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标数值反映了指标在具体时间、地点、条件下的数量表现。
            DAYU平台支持原子指标和复合指标两种,复合指标是在一个或多个衍生指标(原子指标、时间限定和通用限定等)基础上,通过一定的运算公式计算形成。复合指标通常是在原子指标、时间限定和通用限定的基础上,再通过一定的运算公式计算形成。

        1.4 设计汇总表
            最后,基于时间周期、复合指标和维度建立汇总表。
            
    2. 添加审核人
        在规范设计中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。只有管理员才具有添加审核人的权限。
        
    3. 建立业务分层
        新建主题域分组
        新建主题域
        新建业务对象
        新建维度并发布
        提交发布
    4. 审核人员审核对象
    5. 发布维度表
    6. 新建事实表并发布
    
步骤4:数据集成
    我们将在“数据集成”模块中完成以下步骤:
    (1) 批量数据迁移:将历史数据迁移上云
        准备源数据    
        将源数据上传到OBS
        创建访问密钥(AK和SK)
        创建数据迁移的目标表
        新建连接和迁移作业
        
    (2) 实时数据接入:将增量实时数据迁移上云
        购买实时数据接入通道
        从接入通道接入数据
        完成接入通道的配置后,先不发送源数据到接入通道,在后面完成数据开发后再发送数据。
        
    1. 将源数据上传到OBS
        为了将源数据迁移到云上,您可以先将源数据上传到OBS桶中,然后再使用DAYU批量数据迁移将数据迁移到其他云服务中。
    2. 创建访问密钥(AK和SK)
        用户通过客户端或API、SDK等方式访问OBS时,需要通过AK/SK认证方式进行认证鉴权,因此,我们必须先创建访问密钥(AK和SK)。

        Access Key Id(AK):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。
        Secret Access Key(SK):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。
    3. 创建数据迁移的目标表
        事实表可以用作数据迁移的目标表,用于存储源数据,但是我们一般不这么做。因为,在实际业务中,可能会产生一些无效数据、错误数据或者不符合标准和规范的数据,这样的数据对数据分析可能没有很大的价值并且会降低查询效率。因此,我们通常会对原始数据做一次数据清洗后,再存入事实表中。

        出于数据清洗的目的,我们可以先在DAYU数据开发模块中,编写SQL脚本创建一个临时表,用于存储原始数据。

    4. 新建连接和迁移作业
    5. 从接入通道接入数据

步骤5:数据开发
    DAYU数据开发模块可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。

    使用DAYU数据开发,用户可进行数据管理、数据集成、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

    在DAYU数据开发模块中,我们将完成以下步骤:
    1. 脚本开发
    2. 开发批处理作业导入历史数据
        a. 历史数据到原始表,使用CDM将历史数据从OBS导入到原始表。
        b. 历史数据清洗,使用数据开发的ETL Job将原始表清洗之后导入明细层出租车出行数据信息表。
        c. 维度表数据插入。
    3. 开发实时处理作业接入数据并分析
        a. 创建流式任务。
        b. 实时数据到原始表,每5分钟生成的OBS文件通过DLI直接导入原始层出租车出行数据信息表,事件触发调度。
        c. 实时数据清洗,使用DLI SQL将每5分钟生成的OBS文件清洗之后导入明细层出租车出行数据信息表,事件触发调度。
        d. 数据汇总,通过DLI SQL将明细表数据进行汇总并写入汇总表。
        
步骤6:数据质量监控
    数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。支持数据的清洗和标准化,能够根据数据标准自动生成清洗和标准化的质量规则。支持周期性的监控和清洗。

    在DAYU数据质量模块中,可以对业务指标和数据质量进行监控。本章节以业务指标监控为例介绍如何进行监控。业务指标的监控流程如下:
        1. 新建指标
        2. 新建规则
        3. 新建业务场景
        4. 运行业务场景并查看监控结果

步骤7:数据资产采集与监控
    在DAYU数据资产模块中,可以对所有的业务资产和技术资产进行元数据采集和监控。业务资产就是指逻辑实体和业务对象,技术资产就是指数据连接、数据库对象等。
    
步骤8:数据服务API开发
    DAYU数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务为您提供快速将数据表生成数据API的能力,同时支持您将现有的API快速注册到数据服务平台以统一管理和发布。
    
    1. 添加审核人
    2. 创建API并发布API
    3. 审核人员审核API
    4. 添加授权
    5. 调用API

扫描二维码关注公众号,回复: 8713620 查看本文章

未完待续,......

发布了220 篇原创文章 · 获赞 16 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/zhanggqianglovec/article/details/103649692