本文是我学习Hadoop搭建过程中的各种笔记,内容来自于各种公开的教程,起点非常低,从Linux基础开始,直至在PC上搭建Hadoop成功,是真正的从零开始。
感谢过程中帮助我的各位认识的和不认识的老师。
31、Hdfs 的相关内容介绍:
官网:http://hadoop.apache.org/index.html
Hadoop 三大核心、四大模块:
HDFS的介绍:
HDFS设计目标:
注解上面的3.4.5.6:
3.储存量大,用流访问,保证HDFS的吞吐量
4.拷贝程序,不拷贝数据,移动程序比移动数据划算
5.简单一致性模型:HDFS希望你简单操作:一次性写入,多次读取
6.可以和别的框架,计算框架很好的融合
HDFS的特点:
HDFS三个服务:
HDFS是主从架构:
namenode 是主,老大,管理所有的datanode,负责元数据的同步
namenode 通过metadata管理所有的datanode
secondary namenode 相等于秘书,这里只有一个
metadata元数据:描述数据的数据
Client :客户端
← 相等与一个服务器
Rack1 Rack2:叫做机架,一个机架上可以装很多台服务器
←相当于datanode Rack1上面有3个datanodes, Rack2上面有2个datanodes
想写一个文件,操作:
Client客户端 向 Namenode发出请求
Namenode 告诉你写字哪个 Datanodes机子上
拿到Metadata上的地址(相当于给了你一个数组)
拿到地址后 联系Datanodes
写完后原样返回,关Client客户端即可
基本概念:
块:Hadoop1默认64兆 ,Hadoop2默认128兆。如有一个200兆的文件,应写到两个数据库里,一个128兆,一个72兆。任何文件系统都是以块来储存的
元数据:包上面的信息压缩到一个文件里面来
Fsimage:详细文件的压缩
Edits:用户操作HDFS文件系统的详细的日志信息,叫流水,出来问题才能找到原由
HDFS架构——NameNode:
两个节点,三个节点都可以了 3秒 10分钟 1小时
HDFS架构——DataNode:
HDFS文件权限: