【Hadoop学习之一】Hadoop介绍


一、概念

Hadoop是一个能够对大量数据进行分布式处理的软件框架,充分利用集群的威力进行高速运算和存储。

二、主要模块
Hadoop Common:支持其他Hadoop模块的常用实用程序。
Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
Hadoop YARN:作业调度和集群资源管理的框架。
Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。
Hadoop Ozone: Hadoop的对象存储。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

三、存储模型(化整为零 并行计算 分而治之)
1、Block:
将文件按照确定大小(除最后一块)的字节(byte)线性切割,切出来的每一块叫Block;
不同文件可以按照不同长度切割;
Hadoop2.X以上,大小可以设置为1M-128M;默认3个副本,大小和副本数都可以设置;
Block支持一次写入多次读取,同一时刻只有一个写入者(即:不允许修改)

2、偏移量offset:被切割成的Block的线性标识,比如第一个Block偏移量是0,第二Block就是0+第一个Block字节数,...

3、副本:Block可以设置副本数(默认3个),副本数不多于节点数;
副本分散于不同节点上,避免单点故障;
副本之间优先级相同;

四、副本放置策略
第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。
第二个副本:放置在于第一个副本不同的 机架的节点上。
第三个副本:与第二个副本相同机架的节点。
更多副本:随机节点

五、架构模型

扫描二维码关注公众号,回复: 4700941 查看本文章

1、元数据metaData:描述文件属性信息(stat file)
2、NameNode节点(主:单节点):保存和管理文件元数据
3、DataNode节点(从:集群):保存和处理文件内容数据,利用服务武器本地文件系统存储数据
4、DataNode与NameNode保持心跳,提交Block列表
5、HdfsClient与NameNode交互元数据信息
6、HdfsClient与DataNode交互文件Block数据

猜你喜欢

转载自www.cnblogs.com/cac2020/p/10197724.html
今日推荐