大数据Hadoop核心组件,主要有哪些?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/duozhishidai/article/details/89559977

首先,简单概括一下云计算和大数据之间的关系。在很大程度上它们是相辅相成的,最大的不同在于:云计算是你在做的事情,而大数据是你所拥有的东西。以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具,而通过对大数据分析、预测会使得决策更加精准,两者相得益彰。从另一个角度讲,云计算是一种IT理念、技术架构和标准,而云计算不可避免地会产生大量的数据。大数据技术与云计算的发展密切相关,大型的云计算应用不可或缺的就是数据中心的建设,所以大数据技术是云计算技术的延伸。

作为云计算PaaS层技术的代表,Hadoop可以以一种可靠、高效、可扩展的方式存储、管理“大数据”,如图1-8所示。Hadoop及其生态圈为管理、挖掘大数据提供了一整套成熟可靠的解决方案。从功能上说,Hadoop可以称作一个“大数据管理和分析平台”。下面我们先对Hadoop的核心组件做一个简单的介绍,让读者对Hadoop有个初步的认识。

1.海量数据的摇篮——HDFS

作为Hadoop分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储着所有的数据,支持着Hadoop的所有服务。它的理论基础源于Google的TheGoogleFileSystem这篇论文,它是GFS的开源实现。

HDFS的设计理念是以流式数据访问模式,存储超大文件,运行于廉价硬件集群之上。

2.处理海量数据的利器——MapReduce

MapReduce是一种编程模型,Hadoop根据Google的MapReduce论文将其实现,作为Hadoop的分布式计算模型,是Hadoop的核心。基于这个框架,分布式并行程序的编写变得异常简单。综合了HDFS的分布式存储和MapReduce的分布式计算,Hadoop在处理海量数据时,性能横向扩展变得非常容易。

3.列族存储——HBase

HBase是对Google的Bigtable的开源实现,但又和Bigtable存在许多不同之处。HBase是一个基于HDFS的分布式数据库,擅长实时地随机读/写超大规模数据集。它也是Hadoop非常重要的组件。

简言之,由于Hadoop可以基于分布式存储进行分布式计算,横向扩展能力非常优秀,所以Hadoop非常适合并且能够胜任存储、管理、挖掘“大数据”的任务。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
Hadoop、Spark和Storm三者技术相对比,有什么关系?
http://www.duozhishidai.com/article-15089-1.html
hadoop是什么,主要有哪些不同版本?
http://www.duozhishidai.com/article-12346-1.html
Spark 和 Hadoop之间,主要有什么联系
http://www.duozhishidai.com/article-9781-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台

猜你喜欢

转载自blog.csdn.net/duozhishidai/article/details/89559977
今日推荐