大数据Hadoop核心组件，主要有哪些？

首先，简单概括一下云计算和大数据之间的关系。在很大程度上它们是相辅相成的，最大的不同在于：云计算是你在做的事情，而大数据是你所拥有的东西。以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具，而通过对大数据分析、预测会使得决策更加精准，两者相得益彰。从另一个角度讲，云计算是一种IT理念、技术架构和标准，而云计算不可避免地会产生大量的数据。大数据技术与云计算的发展密切相关，大型的云计算应用不可或缺的就是数据中心的建设，所以大数据技术是云计算技术的延伸。

作为云计算PaaS层技术的代表，Hadoop可以以一种可靠、高效、可扩展的方式存储、管理“大数据”，如图1-8所示。Hadoop及其生态圈为管理、挖掘大数据提供了一整套成熟可靠的解决方案。从功能上说，Hadoop可以称作一个“大数据管理和分析平台”。下面我们先对Hadoop的核心组件做一个简单的介绍，让读者对Hadoop有个初步的认识。

1．海量数据的摇篮——HDFS

作为Hadoop分布式文件系统，HDFS处于Hadoop生态圈的最下层，存储着所有的数据，支持着Hadoop的所有服务。它的理论基础源于Google的TheGoogleFileSystem这篇论文，它是GFS的开源实现。

HDFS的设计理念是以流式数据访问模式，存储超大文件，运行于廉价硬件集群之上。

2．处理海量数据的利器——MapReduce

MapReduce是一种编程模型，Hadoop根据Google的MapReduce论文将其实现，作为Hadoop的分布式计算模型，是Hadoop的核心。基于这个框架，分布式并行程序的编写变得异常简单。综合了HDFS的分布式存储和MapReduce的分布式计算，Hadoop在处理海量数据时，性能横向扩展变得非常容易。

3．列族存储——HBase

HBase是对Google的Bigtable的开源实现，但又和Bigtable存在许多不同之处。HBase是一个基于HDFS的分布式数据库，擅长实时地随机读/写超大规模数据集。它也是Hadoop非常重要的组件。

简言之，由于Hadoop可以基于分布式存储进行分布式计算，横向扩展能力非常优秀，所以Hadoop非常适合并且能够胜任存储、管理、挖掘“大数据”的任务。

人工智能、大数据、云计算和物联网的未来发展值得重视，均为前沿产业，多智时代专注于人工智能和大数据的入门和科谱，在此为你推荐几篇优质好文：
Hadoop、Spark和Storm三者技术相对比，有什么关系？
http://www.duozhishidai.com/article-15089-1.html
hadoop是什么，主要有哪些不同版本？
http://www.duozhishidai.com/article-12346-1.html
Spark 和 Hadoop之间，主要有什么联系
http://www.duozhishidai.com/article-9781-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

大数据Hadoop核心组件，主要有哪些？

猜你喜欢