B05 - 003、Hadoop集群基本概念

0、本章学习目录大纲 - Hadoop集群基本概念

初学耗时:1h

注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

一、Hadoop发行版本
  1.1  社区版、商业版。
  1.2  Hadoop版本。
  1.3  Hadoop当下稳定版本。
  1.4  集群划分概念。

二、Hadoop集群基本概念
    2.1  Hadoop核心组件的概念。
    2.2  Hadoop的部署方式。

三、Hadoop集群安装
  3.1  Hadoop、CDH5.14.0 - 2.6.0、源码包编译。
  3.2  伪分布式【学习环境】。
  3.3  完全分布式 - HA高可用【工作环境】。



延伸博文链接推荐:
   B02 - 002、Hadoop、CDH5.14.0 - 2.6.0、源码包编译
   B02 - 003、Hadoop、完全分布式、CDH5.14.0 - 2.6.0、离线存储、计算、管理
   B02 - 025、Hadoop、伪分布式、CDH5.14.0 - 2.6.0


ギ 舒适区ゾ || ♂ 累觉无爱 ♀





一、Hadoop发行版本

  1.1 ~ 社区版、商业版。

  • Hadoop 发行版本分为开源社区版和商业版,社区版是指由 Apache 软件基金会维护的版本,是官方维护的版本体系。
  • 商业版 Hadoop 是指由第三方商业公司在社区版 Hadoop 基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,比较著名的有 cloudera 的 CDH、mapR 等。
  • 我们学习的是社区版:cloudera 的 CDH。

社区版(官方版本):Apache软件基金会维护的 版本最新 功能最全 兼容性最不和。
商业版:商业公司基于社区版进行商业化发行(CDH) 兼容性好 版本略低

  1.2 ~ Hadoop版本。

  • 后续如未说明都是指 CDH 版本Hadoop 的版本很特殊,是由多条分支并行的发展着。大的来看分为 3 个大的系列版本:1.x、2.x、3.x。
  • Hadoop1.0 由一个分布式文件系统 HDFS 和一个离线计算框架 MapReduce 组成。
  • Hadoop 2.0 则包含一个支持 NameNode 横向扩展的 HDFS,一个资源管理系统YARN 和一个运行在 YARN 上的离线计算框架 MapReduce。相比于 Hadoop1.0,Hadoop 2.0 功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。
  • Hadoop 3.0 相比之前的 Hadoop 2.0 有一系列的功能增强。但目前还是个alpha 版本,有很多 bug,且不能保证 API 的稳定和质量。

  1.3 ~ Hadoop当下稳定版本。

  • 我们课程中使用的是当前 2 系列最稳定版本:CDH 2.6.0 - CDH14.0

  1.4 ~ 集群划分概念。

alt



做生活的主人,自理、自律、自强。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


二、Hadoop集群基本概念

  2.1 ~ Hadoop核心组件的概念。

HADOOP 集群具体来说包含两个集群:HDFS 集群和 YARN 集群,两者逻辑上分离,但物理上常在一起。

  • HDFS 集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode。
  • YARN 集群负责海量数据运算时的资源调度,集群中的角色主要有:ResourceManager、NodeManager。

alt

那 MapReduce 为什么没有集群呢?


MapReduce是计算程序,是代码层面的组件,不需要在物理服务器上部署,没有集群的概念。要想使用MapReduce就写Java代码来执行。

它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在 HDFS 集群上,并且受到 YARN 集群的资源调度管理。

  2.2 ~ Hadoop的部署方式。

Hadoop 部署方式分三种,Standalone mode(独立模式)、Pseudo-Distributed mode(伪分布式模式)、Cluster mode(群集模式),其中前两种都是在单机部署。

    2.2.1 .  Standalone mode(独立模式)
  • 独立模式又称为单机模式,仅 1 个机器运行 1 个 java 进程,主要用于调试。
    2.2.2 .  Pseudo-Distributed mode(伪分布式模式)
  • 伪分布模式也是在 1 个机器上运行 HDFS 的 NameNode 和 DataNode、YARN 的
    ResourceManger 和 NodeManager,但分别启动单独的 java 进程,主要用于调试。
    2.2.3 .  Cluster mode(群集模式、完全分布式)
  • 集群模式主要用于生产环境部署。
  • 会使用 N 台主机组成一个 Hadoop 集群。
  • 这种部署模式下,主节点和从节点会分开部署在不同的机器上。


做生活的主人,自理、自律、自强。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




三、准备工作

  3.1 ~ Hadoop、CDH5.14.0 - 2.6.0、源码包编译。

   B02 - 002、Hadoop、CDH5.14.0 - 2.6.0、源码包编译

  3.2 ~ 伪分布式【学习环境】。

   B02 - 003、Hadoop、完全分布式、CDH5.14.0 - 2.6.0、离线存储、计算、管理

注:初次学习先用伪分布式,配置简单,便于学习时收获成果。

  3.3 ~ 完全分布式 - HA高可用【工作环境】。

   B02 - 025、Hadoop、伪分布式、CDH5.14.0 - 2.6.0



做生活的主人,自理、自律、自强。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -



^ 至此,Hadoop集群基本概念完成。


- - - - - - - - - - - - - - - - - - - - - - - - - - - -


※ 世间诱惑何其多,坚定始终不动摇。

无锁化编程有哪些常见方法?


A、针对计数器,可以使用原子加。
B、只有一个生产者和一个消费者,那么就可以做到免锁访问环形缓冲区(Ring Buffer)。
C、RCU(Read-Copy-Update),新旧副本切换机制,对于旧副本可以采用延迟释放的做法。
D、CAS(Compare-and-Swap),如无锁栈,无锁队列等待。

ABCD
alt



做生活的主人,自理、自律、自强。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

我知道我的不足,我也知道你的挑剔,但我就是我,不一样的烟火,谢谢你的指指点点,造就了我的点点滴滴:)!



做生活的主人,自理、自律、自强。


猜你喜欢

转载自blog.csdn.net/weixin_42464054/article/details/91529458