Hadoop搭建笔记（18）

本文是我学习Hadoop搭建过程中的各种笔记，内容来自于各种公开的教程，起点非常低，从Linux基础开始，直至在PC上搭建Hadoop成功，是真正的从零开始。

感谢过程中帮助我的各位认识的和不认识的老师。

31、Hdfs 的相关内容介绍：

官网：http://hadoop.apache.org/index.html

Hadoop 三大核心、四大模块：

HDFS的介绍：

HDFS设计目标：

注解上面的3.4.5.6：

3.储存量大，用流访问，保证HDFS的吞吐量

4.拷贝程序，不拷贝数据，移动程序比移动数据划算

5.简单一致性模型：HDFS希望你简单操作：一次性写入，多次读取

6.可以和别的框架，计算框架很好的融合

HDFS的特点：

HDFS三个服务：

HDFS是主从架构：

namenode 是主，老大，管理所有的datanode，负责元数据的同步

namenode 通过metadata管理所有的datanode

secondary namenode 相等于秘书，这里只有一个

metadata元数据：描述数据的数据

Client ：客户端

← 相等与一个服务器

Rack1 Rack2：叫做机架，一个机架上可以装很多台服务器

←相当于datanode Rack1上面有3个datanodes, Rack2上面有2个datanodes

想写一个文件，操作：

Client客户端向 Namenode发出请求

Namenode 告诉你写字哪个 Datanodes机子上

拿到Metadata上的地址（相当于给了你一个数组）

拿到地址后联系Datanodes

写完后原样返回，关Client客户端即可

基本概念：

块：Hadoop1默认64兆，Hadoop2默认128兆。如有一个200兆的文件，应写到两个数据库里，一个128兆，一个72兆。任何文件系统都是以块来储存的

元数据：包上面的信息压缩到一个文件里面来

Fsimage：详细文件的压缩

Edits：用户操作HDFS文件系统的详细的日志信息，叫流水，出来问题才能找到原由

HDFS架构——NameNode:

两个节点，三个节点都可以了 3秒 10分钟 1小时

HDFS架构——DataNode:

HDFS文件权限：