HDFS特性和常用功能

0. HDFS集群的配置

Hadoop集群配置后start-dfs.sh启动hdfs服务
Hadoop集群配置见前文

CentOS7下配置Hadoop集群和Zookeeper集群
https://blog.csdn.net/wxfghy/article/details/80417691

http://hadoop.apache.org/docs/r2.9.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

Hadoop Distributed File System
Hadoop的分布式文件系统
HDFS被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

高容错性,部署在低廉的硬件上,高吞吐量,适用于海量数据的可靠性存储和数据归档

功能	命令
hdfs协议访问namenode	hadoop fs -ls hdfs://master:9000/
http协议访问datanode	hadoop fs -ls http://slavea:50075/
在根目录下创建文件夹	hadoop fs -mkdir /mydemo
上传文件到目标文件夹	hadoop fs -copyFromLocal h1.txt /mydemo
下载文件到当前文件夹	hadoop fs -copyToLocal /mydemo/h1.txt ./d1.txt
查看文件	hadoop fs -cat /mydemo/h1.txt
查看目录下所有文件	hadoop fs -ls -R /
追加文件内容到目标文件中	hadoop fs -appendToFile ./h2.txt /mydemo/h1.txt
删除文件或文件夹	hadoop fs -rm -r /mydemo

datanode损坏
如配置10个datanode,备份数为3,则损坏1个datanode时会自动寻找新的datanode补充进来,保证备份数为设定值
写数据的流程
1. 首先,客户端要和namenode通信以确认可以写文件并获得接收文件block的datanode
2. 然后,客户端按顺序将文件逐个block传递给相应的datanode
3. 最后,由接收到block的datanode负责向其他datanode复制block的副本
读数据的流程
1. 首先,客户端将要读取的文件路径发送给namenode
2. 然后,namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端
3. 最后,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件

Metadata,维护文件和目录信息,分为内存元数据和元数据文件
NameNode主要存储元数据镜像文件Fsimage和日志文件Edits
1. Fsimage记录某一永久性检查点时整个HDFS的元信息
2. Edits所有对HDFS的写操作都会记录在此文件