数据仓库构建方法论(四):数据仓库的产品

前面讲了数据仓库的价值、构建思路、实例,完成数据仓库的概念、逻辑、物理模型设计后,数仓的产品选型也是需要考虑的部分,根据数据存储量、查询效率、并发能力可以选用MPP数仓和基于Hadoop的分布式数仓等;

 一、MPP还是Hadoop

这里继续用之前用到的图讲解,数据仓库的特性是处理温数据和冷数据,面向业务分析提供偏于离线分析能力,因此一般选用Hadoop+MPP数仓结合的解决方法,Hive能够提供大批量历史数据的存储计算能力,Hbase能够提供半结构化文档的快速检索能力,MPP能够提供强大高压缩比基础上的快速查询能力;

二、MPP数仓特性

在MPP解决方案中目前我已接触过的是vertica和GP,在teradata实习期间没有用到td数仓;

数仓的特性是大批量的查询和索引,少量的改查工作,MPP (Massively Parallel Processing),即大规模并行处理数据库的一般特性:

① 列式存储意味着高压缩比、高IO能力、快速查询能力、智能索引(数据写入时);

② shared nothing意味着节点的相互独立、数据的冗余备份;

③ 分布式存储/计算、存储/计算的高扩展性、高安全;

MPP的架构分为3种,GP是master/slave模式,具备统一的查询入口(master),vertica是无中心架构,所有节点都提供查询服务,gbase是存储/管理双中心架构;

shared nothing 模式:x86机器构建计算/存储的高扩展集群,数据拆分多份并备份;

shared disk 模式:专用小型机,存储1份数据;

三、Vertica、Greenplum、Gbase

Vertica是惠普的数据仓库产品,无中心架构的mpp,所有节点都能够提供连接查询服务,性能非常强大;

官方文档地址:https://my.vertica.com/documentation/vertica/

集群管理:vertica系统学习vertica集群管理

greenplum是基于postgre数据库的开源的数仓产品,其数据库内核跟vertica一样,两者作者是同一个人,gp是master/slave模式,只有master提供查询能力,同vertica相比,存在master的单点故障风险;

官方文档地址:https://gp-docs-cn.github.io/

部署、特性:greenplum集群部署greenplum集群管理

gbase是国产数仓产品,联邦架构,文档非常少,但是如果购买产品后相关服务非常到位,实施不复杂,目前项目正在用,待考察中;

部署、特性:Gbase的特性、部署、集群管理

猜你喜欢

转载自blog.csdn.net/yezonggang/article/details/107919908