清华大学从理论和实践,由浅入深,全方位介绍Hadoop这一高性能的海量数据处理和分析平台

内容简介

本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性 能的海量数据处理和分析平台。全书5部分24章,第I部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、 Hadoop分布式文件系统YARN、Hadoop 的I/O操作。第II部分介绍MapReduce,主题包括MapReduce应用开发: MapReduce 的工作机制、MapReduce 的类型与格式MapReduce 的特性。第I部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第IV部分介绍Hadoop相关开源项目,主题涉及AvroParquet、 Flume、 Sqoop、 Pig、 Hive、 Crunch、 Spark、 HBaseZooKeeper。 第V部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading( 一个新的针对MapReduce的数据处理API)。

前言:

Hadoop其实并没有那么让人费解,抽丝剥茧,我们来看看它的“庐山真
面目”。Hadoop 提供的用于处理大数据的工具都非常简单。如果说这些工具有一个共同的主题,那就是它们更抽象,为(有大量数据需要存储和分析却没有足够的时间、技能或者不想成为分布式系统专家的)程序员提供一套组件,使其能够利用Hadoop来构建一个处理数据的基础平台。

第一部分:Hadoop基础知识

在这里插入图片描述
第1章:是对Hadoop的宏观介绍。
在这里插入图片描述
第2章:简要介绍MapReduce。
在这里插入图片描述
第3章:深入剖析Hadoop文件系统,特别是HDFS。
在这里插入图片描述
在这里插入图片描述
第4章:讨论Hadoop集群资源管理系统YARN
在这里插入图片描述
在这里插入图片描述

第5章:讲述Hadoop 的I0构建模块:数据完整性、压缩、序列化及基于文件的数据结构。
在这里插入图片描述

第二部分对MapReduce进行深度剖析。

这些内容有助于对后续章节(如第IV部分的数据处理相关章节)的更好理解,但是可以在首次阅读时跳过。
第6章:全景呈现了MapReduce应用开发所涉及的具体步骤。
在这里插入图片描述
第7章:从用户的角度来看如何在Hadoop中实现MapReduce。
在这里插入图片描述
第8章:主要包含MapReduce编程模型和MapReduce可以使用的各种数据格式。
在这里插入图片描述
第9章:是MapReduce高级主题,包括排序和数据连接。
在这里插入图片描述

第三部分:关注的是Hadoop管理。

第10章和第11章主要描述如何设置和维护一个运行HDFS和YARN(第二代MapReduce框架)的Hadoop集群。
在这里插入图片描述
在这里插入图片描述

第四部分:专门介绍在Hadoop上构建或相关的项目。

每一章讲述一个项目,并且很大程度上独立于本部分其他章节,因此可按任何顺序阅读。前两章是关于数据格式的。
第12章:剖析Avro,Hadoop 的一种跨语言数据序列化库。
在这里插入图片描述
第13章:描述Parquet,一种有效的用于嵌套式数据的列式存储格式。
在这里插入图片描述
第14章~第15章:讨论数据摄入,即如何将自己的数据输入到Hadoop系统中。
第14章:介绍Flume,可以支持流数据的大批量摄入。
在这里插入图片描述
第15章介绍Sqoop,支持在结构化数据存储(如关系型数据库)和HDFS之间高效批量传输数据。
在这里插入图片描述
第16章~第19章从一个比MapReduce更高- -级抽象的角度,描述数据处理这样一个共同议题。
Pig(第 16 章):是一种用于开发大数据集的数据流语言。
在这里插入图片描述
Hive(第 17章):是一种数据仓库,用于管理HDFS中存储的数据并提供基于SQL的查询语言。
在这里插入图片描述
Crunch(第18章):是一套高层次的Java API,用于写可以运行MapReduce 或Spark.上的数据处理管线程序(data processiong pipeline)。
在这里插入图片描述
Spark(第 19 章):是一个面向大规模数据处理的集群计算框架,它提供一个有向无环图(DAG, directedacyclic graph)引擎,以及支持Scala、Java 和Python语言的API。
在这里插入图片描述
第20章:介绍HBase,一种使用HDFS作为底层存储的,分布式的面向列的实时数据库。
在这里插入图片描述
第21章:讲述ZooKeeper,这是一种分布式高可用性的协调服务,提供用于构建分布式应用的原语集。
在这里插入图片描述

第五部分:收集了一些实例,这些实例由以各种趣味方式使Hadoop的用户所提供。

在这里插入图片描述

发布了41 篇原创文章 · 获赞 1 · 访问量 2850

猜你喜欢

转载自blog.csdn.net/Ppikaqiu/article/details/103891388