Hadoop Illuminated——Chapter5 Soft Introduction to Hadoop

2019-11-25

23:31:59

5.1. MapReduce or Hadoop?

MapReduce是一个编程框架。
其描述由Google于2004年发布[http://

research.google.com/archive/mapreduce.html]。
与其他框架(例如Spring,Struts或

MFC,MapReduce框架为您做一些事情,并为您提供了一个填写

空白。
MapReduce为您做的是将一个群集中的多台计算机组织起来,以便

执行您需要的计算。
它负责在计算机之间分配工作并放置

一起计算每台计算机的结果。
同样重要的是,它可以解决硬件和网络故障,因此它们不会影响您的计算流程。
反过来,你必须打破你的

将问题分解成可以由多台机器并行处理的单独部分,您可以提供

进行实际计算的代码

Hadoop是Google分布式计算的开源实现。
它由两部分组成:

以Google的GFS和Hadoop MapReduce为模型的Hadoop分布式文件系统(HDFS),

它以Google的MapReduce为模型。
Google的系统是专有代码,因此当Google教书时

扫描二维码关注公众号,回复: 7976980 查看本文章

大学生使用MapReduce编程的想法,他们也使用Hadoop。
为了进一步强调

我们可以注意到,区别在于Yahoo的Hadoop工程师喜欢挑战Google的工程师,

Hadoop和MapReduce之间的排序竞赛。

5.2. Why Hadoop?

我们已经提到Google,Yahoo和Facebook使用了MapReduce框架。
它有

看到金融,零售,电信和政府部门的快速吸收。
它正在侵入生命科学领域。

为什么是这样?

简短的答案是,它简化了大数据的处理。
这个答案立即引起共鸣

人,这是清楚而简洁的,但还不完整。
Hadoop框架具有内置的功能和灵活性,可以执行您以前无法完成的工作。
实际上,Cloudera在最新的O'Reilly Strata上进行了演示

会议提到MapReduce最初是在Google和Facebook上使用的,而不是主要用于

可扩展性,但它允许您处理数据。

2010年,Cloudera客户集群的平均规模为30台计算机。
在2011年是70岁。

人们开始使用Hadoop,出于很多原因,他们都使用新的处理方式

与数据。
Hadoop解决方案可大规模扩展的知识为他们提供了继续前进的安全性,这一点已在全球最大的计算机中心和全球范围内运行的Hadoop证明了这一点。

最大的公司。

As you will discover, the Hadoop framework organizes the data and the computations, and then runs your code. At times, it makes sense to run your solution, expressed in a MapReduce paradigm, even on a single machine(本地模式)

但是,当然,当您没有一个,而是数十个,数百个或数千个

电脑。
如果您的数据或计算足够重要(这些日子不是吗?),那么您

需要一台以上的机器来处理数字。
如果您尝试自己组织工作,那么您

很快就会发现您必须协调许多计算机的工作,处理故障,重试,以及

一起收集结果,依此类推。
输入Hadoop为您解决所有这些问题。
现在你

用锤子,一切都变成钉子:人们通常会在MapReduce中重新制定他们的问题

术语,而不是创建新的自定义计算平台。

No less important than Hadoop itself are its many friends. The Hadoop Distributed File System (HDFS) provides unlimited file space available from any Hadoop node. HBase is a high-performance unlimited-size database working on top of Hadoop. If you need the power of familiar SQL over your large data sets, Pig provides you with an answer. While Hadoop can be used by programmers and taught to students as an introduction to Big Data, its companion projects (including ZooKeeper, about which we will hear later on) will make projects possible and simplify them by providing tried-and-proven frameworks for every aspect of dealing with large data sets.

在学习概念并使用本书中介绍的技术完善技能时,您将发现在许多情况下,Hadoop存储,Hadoop计算或Hadoop的朋友可以帮你。

让我们看看其中一些情况。

猜你喜欢

转载自www.cnblogs.com/JasonPeng1/p/11932237.html