大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

其他 2023-07-21 01:36:13 阅读次数: 0

文章目录

1、Hadoop
2、HDFS
3、HIVE
4、HBase
5、Spark

1、Hadoop

Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它提供了一个可扩展的分布式文件系统（HDFS）和一个分布式计算框架（MapReduce），可以在大量廉价硬件上进行并行计算。

2、HDFS

HDFS（Hadoop Distributed File System）是Hadoop的分布式文件系统。它被设计用于在集群中存储和管理大规模数据集。HDFS将数据分割成块，并将这些块复制到不同的计算节点上，以提供容错性和高可用性。
据我了解，大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成Hive表并存放在HDFS上。

3、HIVE

HIVE是基于Hadoop的数据仓库基础设施，提供了一种类似于SQL的查询语言（HiveQL），用于查询和分析存储在Hadoop上的数据。Hive可以将结构化数据映射到Hadoop的分布式文件系统上HDSF上，并提供高层抽象，使用户能够使用类SQL语法进行查询和分析。
Hive构建在HDFS之上，本质上可看作是一个翻译器，将HiveSQL语言翻译成MapReduce程序或Spark程序。
据我了解，大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成Hive表并存放在HDFS上。一般利用tensorflow的TFRecords来大规模的读取HDFS上的数据。Tensorflow提供了一种解决方法：spark-tensorflow-connector，支持将spark DataFrame格式数据直接保存为TFRecords格式数据，接下来就带大家了解一下TFRecord的原理、构成和如何生成TFRecords文件。

4、HBase

HBase是一个分布式、可扩展、面向列的NoSQL数据库，建立在Hadoop之上。它提供了对大规模数据集的实时读写访问能力，并具有高可靠性和高性能的特点。HBase适用于需要随机、快速访问大规模数据的应用程序。

5、Spark

Spark是一个快速、通用的大数据处理引擎，可以进行分布式数据处理和分析。与Hadoop的MapReduce相比，Spark具有更高的性能和更丰富的功能。Spark支持多种编程语言（如Scala、Java和Python(pyspark)），并提供了一组丰富的API，包括用于数据处理、机器学习和图计算的库。
据我了解，大部分公司，都会对于数据的预处理+模型的推理，都会用pyspark来做分布式处理，如模型的分布式推理（tensorflow和torch只支持分布式训练，不支持分布式预测）。

Reference:

[1] ChatGPT
[2] Me

猜你喜欢

转载自blog.csdn.net/weixin_43646592/article/details/130191099

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

大数据Hadoop Hive HBase Spark Storm

大数据----Hadoop、Hive、Spark 之间关系

大数据篇：Hbase

大数据篇：Hive

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive

大数据Hadoop、Hive及Spark的内在联系

大数据Hadoop、HDFS、Hive、HBASE、Spark、Flume、Kafka、Storm、SparkStreaming这些概念你是否能理清？

大数据资料Hadoop+spark+hive+Hbase+zookeeper

大数据——Hive（理论篇）

学习大数据Hadoop/Hive/Hbase/Spark/Flume/Kafka/Spark/Scala方面的大牛博客收集

Thinking in BigData（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

大数据学习：hive篇，入门学习大数据开发

大数据Hadoop+Hive+Hbase的部署

大数据开发之Hadoop篇-----hdfs shell脚本

大数据开发之Hadoop篇----hdfs读流程

大数据开发之Hadoop篇----hdfs dfsadmin命令

大数据开发之Hadoop篇----hdfs读写权限操作

大数据篇：hadoop测试WordCount hdfs拒绝连接

大数据开发之Hadoop篇----HDFS java API

Hadoop大数据学习---HDFS---精华篇(六)

《Hadoop篇》------大数据及Hadoop入门

Hive和HBase是大数据的重点，但二者的区别联系你了解吗？

大数据开发----Hive（入门篇）

大数据篇：Hive的安装详解

大数据面试题——Hive篇

大数据开发之路：hive篇

Spark大数据学习笔记_第3篇_Hive的安装

大数据之Spark初识篇

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)