【Hadoop学习之一】Hadoop介绍

一、概念

Hadoop是一个能够对大量数据进行分布式处理的软件框架，充分利用集群的威力进行高速运算和存储。

二、主要模块
Hadoop Common：支持其他Hadoop模块的常用实用程序。
Hadoop分布式文件系统（HDFS™）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。
Hadoop YARN：作业调度和集群资源管理的框架。
Hadoop MapReduce：基于YARN的系统，用于并行处理大型数据集。
Hadoop Ozone： Hadoop的对象存储。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

三、存储模型（化整为零并行计算分而治之）
1、Block：
将文件按照确定大小（除最后一块）的字节(byte)线性切割，切出来的每一块叫Block；
不同文件可以按照不同长度切割；
Hadoop2.X以上，大小可以设置为1M-128M；默认3个副本，大小和副本数都可以设置；
Block支持一次写入多次读取，同一时刻只有一个写入者（即：不允许修改）

2、偏移量offset：被切割成的Block的线性标识，比如第一个Block偏移量是0，第二Block就是0+第一个Block字节数，...

3、副本：Block可以设置副本数（默认3个），副本数不多于节点数；
副本分散于不同节点上，避免单点故障；
副本之间优先级相同；

四、副本放置策略
第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在于第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同机架的节点。
更多副本：随机节点

五、架构模型

扫描二维码关注公众号，回复： 4700941 查看本文章

1、元数据metaData:描述文件属性信息（stat file）
2、NameNode节点（主：单节点）：保存和管理文件元数据
3、DataNode节点（从：集群）：保存和处理文件内容数据，利用服务武器本地文件系统存储数据
4、DataNode与NameNode保持心跳，提交Block列表
5、HdfsClient与NameNode交互元数据信息
6、HdfsClient与DataNode交互文件Block数据

【Hadoop学习之一】Hadoop介绍

猜你喜欢