基于阿里云的数据仓库架构设计

移动开发 2020-03-28 10:16:59 阅读次数: 0

文章目录

基于阿里云的数据仓库架构设计

产品对比
离线数仓
实时数仓

基于阿里云的数据仓库架构设计

产品对比

阿里云产品	同类产品	简介
RDS	MySQL、PostgreSQL	关系型数据库服务，是阿里提供的云数据库，有各种版本，例如MySQL版、PostgreSQL版、SQLServer版等
DTS	Canal、DataX、Sqoop、Flume	数据传输服务，功能丰富，包括集数据迁移、数据订阅、数据实时同步的功能，适用于RDMS、NoSQL、大数据等产品
DataHub	Kafka	数据总线，主要功能和Kafka类似，但是有更多的接口、功能
MaxCompute	Hadoop	通用的离线计算平台（原名ODPS），支持SQL、MapReduce、UDF、Graph、Spark on MaxCompute等计算模型。调度系统是伏羲，存储系统是盘古
RealtimeCompute	Spark、Flink	实时计算框架（以前版本是StreamCompute），底层基于Blink
DataWorks	-	可视化的一站式大数据工场，包括数据集成、开发、治理、服务、质量、安全等功能，具体地说就是方便你使用MaxCompute、RealtimeCompute
AnalyticDB	GreenPlum、LibrA	分析型数据库，基于MPP架构，主要包括MySQL版、PostgreSQL版
DataV	Tableau、PowerBI	可视化数据展示工具，主要做大屏展示
QuickBI	Tableau、PowerBI	相较于DataV更为灵活，主要做数据分析，运营、分析师使用较多

离线数仓

架构设计图
说明
- 原始数据主要来源于两部分
  - 日志服务器产生的用户行为数据
  - 业务数据库产生的数据
  - 当然你还可以导入各种数据，例如网络爬虫的数据、数据市场购买的数据等等
- 数据导入部分
  - 日志数据采用Flume进行导入DataHub既可（TailDirSource + MemoryChannel + DataHubSink）
  - 业务数据直接利用MaxCompute同步进入平台即可
- 数据仓库建设部分，需要进行多层划分
  - ODS（原始数据层）- 最原始的数据，只做最简单的格式检查，以及数据压缩
  - DWD（数据明细层）- 数据明细层，需要进行各种ETL清洗、抽取、拆分、降维，得到实体表、维度表、事实表
  - DWS（数据汇总层）- 针对明细层的数据做一个轻度聚合，进行各种统计指标的初步汇总，方便后面应用层直接使用
  - ADS（数据应用层）- 应用层是最终的数据结果，包括最终需要的各类指标，还需要导入到关系型数据库中，方便Web端查询
- 分析用数据库
  - 此部分可选用AnalyticDB、RDS或自建关系型库，都可以，主要是为了方便后续系统查询
  - 如果数据量不大，分析量小，直接采用RDS或自建关系型库即可
  - 如果因业务需求需要进行大量变化的数据分析，那么建议使用AnalyticDB
- 数据展示部分
  - 根据需求选择阿里的QuickBI或自行定制化设计Web数据展示界面均可

实时数仓

架构设计图
说明
- 原始数据主要来源于两部分
  - 日志服务器产生的用户行为数据
  - 业务数据库产生的数据
- 数据导入部分
  - 日志数据采用Flume进行导入DataHub既可（TailDirSource + MemoryChannel + DataHubSink）
  - 业务数据需要利用DTS实时导入到DataHub
- 数据仓库建设部分，可以使用Kappa架构（传统Lambda架构的两条链路缩减为一条，降低维护成本）
  - 原始数据先进入到DataHub，接着由RealtimeCompute进行清洗、关联，得到实时明细数据
  - 实时明细数据进入到DataHub，接着由RealtimeCompute进行轻度、高度聚合，得到实时汇总数据
  - 实时汇总数据进入到DataHub（也可以直接进入到分析库中），再导入到AnalyticDB
- 分析用数据库（建议同离线部分，不过还是更推荐AnalyticDB）
  - 此部分库从前面DataHub得到了汇总数据
    - 接着可以在内部进行指标统计生成应用层数据，直接展示即可
    - 或是交由后续服务应用自行调用分析（适用于各种经常变化的分析情况）
- 数据展示部分
  - 此部分同离线数仓，不过通常实时部分都是做的大屏展示，包含各类统计指标，可以直接使用阿里的DataV

蒋含竹

发布了151 篇原创文章 · 获赞 70 · 访问量 19万+

私信关注

猜你喜欢

转载自blog.csdn.net/alionsss/article/details/105130469

基于阿里云的数据仓库架构设计

数据仓库架构设计的概念

数据仓库分层架构设计

浅谈数据仓库架构设计

阿里数据仓库架构与模型设计

数据仓库架构设计的一点概念

系统架构设计笔记（12）—— 数据仓库

数据仓库(一) 项目需求与架构设计

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

数据仓库的架构与设计

2-hadoop之数据仓库hive(二) hive架构设计原理

5数据仓库的架构与设计

基于阿里云 MaxCompute 构建企业云数据仓库CDW

阿里云 FaaS 架构设计

基于阿里云搭建实时数据仓库项目学习笔记

数据仓库设计

阿里云实时数据仓库Hologres&Flink

数据仓库架构以及多维数据模型的设计

数据仓库架构方案

数据仓库架构分层

数据仓库架构发展

数据仓库的分层架构

数据仓库的基础架构

数据仓库分层架构

数据仓库架构演变

数据仓库架构详解

基于 Spark 的物流企业数据仓库的设计与实现

UDW 云数据仓库

阿里云Overlay的SDN 实践: 架构设计与产品实现

阿里云 FaaS 架构设计与创新实践

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)