初识Hadoop、Hive和HBase

Hadoop是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。

本质上是:分布式文件系统(HDFS) + 分布式计算框架(Mapreduce) + 调度系统Yarn搭建起来的分布式大数据处理框架。

Hive:是一个基于Hadoop的数据仓库,适用于一些高延迟性的应用(离线开发),可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表是纯逻辑表。hive需要用到hdfs存储文件,需要用到MapReduce计算框架。

特点:

  • 能够使用类SQL对数据进行查询操作
  • Hive中没有索引(暴力扫描整张表,访问数据延迟高;使用MR,并行访问数据)
  • Hive操作的数据是在分布式文件系统(HDFS)上的数据
  • Hive不支持数据的修改
  • Hive适合在离线下进行数据的操作,就是说不适合在挂在真实的生产环境中进行实时的在线查询或操作,因为一个字“”。

HBase:是一个Hadoop的数据库,一个分布式、可扩展、大数据的存储。hbase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。HBase本质上是数据存储,是部署在HDFS上的非关系型数据库。

猜你喜欢

转载自blog.csdn.net/weixin_43173093/article/details/107250307
今日推荐