Java+大数据开发——HDFS详解

1. HDFS 介绍

• 什么是HDFS

首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件。

其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；

• 设计思想

分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

• 在大数据系统中作用：

为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务。

• Hdfs整体架构如下

2. HDFS的特性

（1）HDFS中的文件在物理上是分块存储（block）。块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M。

（2）HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

（3）目录结构及文件分块信息(元数据)的管理由namenode节点承担，namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的block块信息。

（4）文件的各个block的存储管理由datanode节点承担，datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication）。想系统学习大数据的话，可以加入大数据技术学习扣扣君羊：522189307

（5）HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改。

3. HDFS 的shell（命令行客户端）操作

3.1HDFS命令行客户端使用

HDFS提供shell命令行客户端，使用命令语法为：hadoop fs <args>，它支持支持多种文件系统的访问，主要包括Local和HDFS两种，配置文件中的fs.defaultFS的值决定了默认访问的文件系统。其中命令中的“fs”表示FileSystem Shell。

“<args>”是“fs”的子命令，包括：

创建目录：mkdir

列表文件：ls

查看文件：cat

转移文件：put、get、mv、cp

删除文件：rm、rmr

管理命令：test、du、expunge

3.2常用命令参数介绍

-help

功能：输出这个命令参数手册

-ls

功能：显示目录信息

示例： hadoop fs -ls hdfs://hadoop-server01:9000/

备注：这些参数中，所有的hdfs路径都可以简写

-->hadoop fs -ls / 等同于上一条命令的效果

-mkdir

功能：在hdfs上创建目录

示例：hadoop fs -mkdir -p /aaa/bbb/cc/dd

--appendToFile

功能：追加一个文件到已经存在的文件末尾

示例：hadoop fs -appendToFile ./hello.txt hdfs://hadoop-server01:9000/hello.txt

可以简写为：Hadoop fs -appendToFile ./hello.txt /hello.txt

-cat

功能：显示文件内容

示例：hadoop fs -cat /hello.txt

-cp

功能：从hdfs的一个路径拷贝hdfs的另一个路径

示例： hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-mv

功能：在hdfs目录中移动文件

示例： hadoop fs -mv /aaa/jdk.tar.gz /

-get

功能：等同于copyToLocal，就是从hdfs下载文件到本地

示例：hadoop fs -get /aaa/jdk.tar.gz

-put

功能：等同于copyFromLocal

示例：hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-rm

功能：删除文件或文件夹

示例：hadoop fs -rm -r /aaa/bbb/

4. HDFS 的工作机制

4.1概述

1、HDFS集群分为两大角色：NameNode、DataNode；

2、NameNode负责管理整个文件系统的元数据；

3、DataNode 负责管理用户的文件数据块；

4、文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上；

5、每一个文件块可以有多个副本，并存放在不同的datanode上；

6、Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量；

7、HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行；

4.2HDFS写数据流程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

4.3HDFS读数据流程

客户端将要读取的文件路径发送给namenode，namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

5.NAMENODE 工作机制

5.1NAMENODE 职责

NAMENODE职责：负责客户端请求的响应以及元数据的管理（查询，修改）。

5.2元数据管理

namenode对数据的管理采用了三种存储形式：

1、内存元数据(NameSystem)

2、磁盘元数据镜像文件

3、数据操作日志文件（可通过日志运算出元数据）

5.3元数据储存机制

A、内存中有一份完整的元数据(内存meta data)

B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)

C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）

5.4元数据手动查看

可以通过hdfs的一个工具来查看edits中的信息

bin/hdfs oev -i edits -o edits.xml

bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

5.5元数据的checkpoint

每隔一段时间，会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge（这个过程称为checkpoint）。

6. DATANODE 的工作机制

6.1DATANODE 工作职责

1、存储管理用户的文件块数据

2、定期向namenode汇报自身所持有的block信息（通过心跳信息上报）

6.2观察验证DATANODE 功能

上传一个文件，观察文件的block具体的物理存放情况：

在每一台datanode机器上的这个目录中能找到文件的切块：

/home/hadoop/app/hadoop-2.6.5/tmp/dfs/data/current/BP-193442119-192.168.2.120-1432457733977/current/finalized

大数据基础入门教程

发布了218 篇原创文章 · 获赞 6 · 访问量 4万+

私信关注

Java大数据开发之HDFS详解