第一部分：介绍hadoop集群架构

此部分共分为如下两部分：

第一章：介绍hadoop及其环境介始

欢迎来到管理hadoop的课程。hadoop在处理大数据处于领先地,被称为大数据hadoop。hadoop是一个开源的项目，大约在2005年推出。hadoop已成为使用并行处理算法和简单数据处理模型来处理大量数据的事实上的标准，这些模型是高效计算和可靠计算体系结构的基础。

Hadoop的设计明确考虑了大数据的挑战。公司迫切希望从在线点击流，服务器日志，社交媒体，天气以及其他传感器数据，电子邮件和手机数据生成的庞大数据流中弄清楚。如今，许多组织使用Hadoop来满足其大数据需求

第一章主要介绍：

hadoop 的框架
解释Hadoop如何适应“大数据”世界
介绍集群计算和Hadoop集群
描述Hadoop组件和Hadoop“生态圈”
解释Hadoop管理员工作内容
解释使用MapReduce和Spark进行的分布式数据处理
介绍与Apache Sqoop，Apache Flume和Apache Kafka的数据集成
介绍Hadoop管理的关键领域

从本书的标题可以看出，我们的重点完全放在管理Hadoop上。我在书中讨论的主题使负责管理Hadoop环境的人们以及有时可能需要安装和管理自己的开发环境的Hadoop开发人员等其他团队受益。负责管理Hadoop系统的Linux管理员还将发现本书的内容对他们的日常工作很有用。

Hadoop环境主要在Linux（和UNIX）系统上运行，尽管您也可以在Windows系统上运行它们。它们可以在本地和云上运行，例如名为Amazon EMR（Elastic MapReduce）的Amazon Web Service（AWS）基于Hadoop的大数据产品。涉及在基于Linux的系统上管理Hadoop。但是，无论操作系统如何，管理的基本原理都是相同的。

您可以直接安装Apache Hadoop模块并设置自己的功能齐全的Hadoop环境（如第3章“创建和配置简单的Hadoop 2集群”和第4章“规划和创建全分布式集群”中所述）），组织通常会部署由供应商支持的Hadoop发行版，例如Cloudera，HortonWorks，Pivotal或MapR。但是，本书没有讨论与供应商相关的专有产品的原因很简单：本书的目的是向您展示如何成为一名优秀的Hadoop管理员，而我相信这样做的最好方法是学习Hadoop集群管理从头开始，通过了解如何直接与核心Apache产品集一起使用。

通过这种方式学习事物，您无需进行任何操作即可获得大量的理解和信心，而不必单击供应商提供的集群管理器中的某些按钮，而不能真正了解其底层情况。话虽如此，我完全支持使用供应商提供的Hadoop发行版，并且我认为所有领先的供应商都可以提供优质的产品。最适合您的是在您的环境中最适合您的。

第二章：hadoop体系结构简介

第三章：管理和保护Hadoop数据和高可用性

第四章：移动数据，分配资源，调度作业和安全性

第五章：监控优化和故障排除

1、使用yarn的命令管理hadoop 的任务

2、停用和重新启用节点

3、设置高可用性ResourceManager

4、执行常见的管理任务

5、实施专门的HDFS功能

6、管理MySQL数据库

7、备份关键数据

8、使用Hue管理您的集群

从某种意义上说，本章从某种意义上讲是一个提包，它讨论了管理员经常需要执行的几个Hadoop管理任务。我首先介绍了可帮助您管理Hadoop作业的YARN命令集。第17章“监视，指标和Hadoop日志记录”介绍了如何使用Hadoop的Web UI来管理作业，但是也很好地学习了如何使用yarn命令。

尽管我专门讨论了HDFS的管理工作，但您可能需要在群集中设置一些重要的HDFS功能，例如，短路本地读取和可安装的HDFS。本章介绍了这些有用的功能。

虽然resourcemanger manager来

查看所有的应用

半_调_子

发布了158 篇原创文章 · 获赞 28 · 访问量 33万+

私信关注

企业级hadoop管理（1）