云数据库HBase版产品优势与应用场景

云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 的一个分布式数据库,支持海量的PB级的大数据存储,适用于高吞吐的随机读写的场景。目前在阿里内部有数百个集群,10000台左右规模的集群,服务数百个业务线,在订单存储、消息存储、物联网、轨迹、wifi、安全风控、搜索等领域有较多的在线应用。 阿里云特别提供HBase产品化方案服务广大的中小型客户。

教学课程:云数据库HBase版使用教程

产品优势:

  • 与其他厂商​HBase产业优势对比
  云HBase EMR HBase或者ECS自建及其它友商
低成本 默认数据2副本,相比自建节约1个副本,存储成本降低1/3;支持冷热分离,冷数据存放在便宜的介质,并自动把热数据同步到冷数据 数据冷热分离
一站式能力 支持多模式:KV、SQL、全文索引、时空、时序、图查询,支持X-Pack组件族,包括Phoenix、OpenTSDB、时空、Graph、solr及spark,提供一站式数据处理,存储和分析能力。 开源版本仅仅支持KV或者自己构建
产品可用性 SLA保障,单集群99.9%,双集群99.99% 无SLA,且有ecs可能落在同一个宿主机,宿主机挂,集群挂
小版本升级 阿里内部版本与云版本一致,不断优化性能,改进稳定性,通过一键升级体现,参考 小版本升级
产品数据可靠性 通过3副本,共享存储构建大集群,机架感知等方式保障数据可靠性,SLA保障,11个9 小集群的数据可靠性低
双活 支持双活 不支持
内核 性能提升50%~300% 开源,没有优化,且很多patch是阿里贡献
延迟 99.9延迟SSD磁盘降低为40ms以内、YGC降低为15ms,基于OffHeap及阿里GC等优化 ,GC优化文章介绍 毛刺就多,抖动较大,99.9延迟 300ms+,YGC120ms+
备份恢复 数据备份及恢复 数据备份及恢复 不支持
高压缩 支持snappy及zstd 新型压缩算法,编码压缩文章介绍 支持有限
安全 支持账号密码访问,ACL 不支持
动态扩容及添加节点 支持添加磁盘容量及节点、对业务无感知
支持分析 支持spark高性能分析(带支持) ,算子下推等优化,提升数倍性能 开源无性能优化
HBase专业运维 内部打磨8年,支持天猫双十一,阿里部署12000,如 大表region合并,自动识别热点、大scan等
  • 与传统数据库对比
功能 分布式云HBase数据库 传统关系型数据库(mysql/pg)
扩展性 无缝扩容到2000台左右,且扩容业务无感知 单节点,再业务分库分表
事务 行内事务 行内及跨行事务
行数 ~万亿+ ~亿
列数 ~百万+ 1000?
TPS ~1亿+ ~10w
SQL支持 支持(标准SQL) 支持
索引 支持(二级索引),配合solr支持全文索引 支持

应用场景

ApsaraDB for HBase的使用场景比较广泛,以至于很多客户无法把握他。以下我们大致列下,适合的场景:

场景

HBase的设计之初是为了存储互联网,几乎所有非事务类结构化的存储需求都可以使用HBASE来满足。HBase是NoSql,讲的是Not only SQL,也是支持SQL及二级索引的。在整个数据的世界里,事务是比较少,占了不到1%的份额,大部分的数据存储都是无事务的。

目前阿里的使用情况:

阿里hbase

在讲述具体的HBase场景,我们先看下HBase在整个数据处理大图之间的位置:数据流

云HBase处于数据存储的位置,自带分析的功能

1、数据来源的途径有:

  • 通过业务 ECS 直接写入到 云HBase之中
  • 有一些消息中间件自带push功能,可以直接写入到HBase之中;有一些不行,需要拉取消息再转化处理后写入到HBase之中
  • 通过流式系统,比如:SparkStreaming、Flink、Storm等流式引擎计算写入到云HBase之中
  • 从离线同步数据到云HBase之中,一般为T+1同步
  • 从关系型数据库同步数据到云Hbase之中,可以做到实时同步
  • 在机器学习场景中,直接把云Hbase作为存储

2、云HBase的数据的去向:

  • 云HBase自带Phoenix模块分析,支持百亿的毫秒级别分析
  • 通过Spark等离线分析引擎分析
  • ECS业务端查询,如Scan一些数据,在客户端展示

物联网大数据

物联网

HBase天生适合物联网的场景,比如:单车、物流轨迹类 等等

大数据类

大数据类

满足安全风控、大数据处理、搜索等等具体的场景,一般跟流式系统、离线系统结合

大数据存储类、包括历史数据存储

海量数据存储

存储包括各类数据,比如:日志、订单、交易数据、消息等等,在线实时写入,在实时查询。历史数据查询批量低,需要分层存储,云HBase预计在12月份支持冷热数据分离存储,降低存储成本

实时分析类

分析类

在百亿的数据量下,秒级别返回数据,适合 报表、统计等需求。

更多精品课程:

阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场

猜你喜欢

转载自blog.csdn.net/lsj960922/article/details/89919851