大数据（三）：HDFS文件系统概述和命令行操作

一、HDFS概述

随着数据量越来越大，一个操作系统管辖的范围内存不下了，那么久分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统，HDFS只是分布式文件系统中的一种。

HDFS用于储存文件，通过目录树来定位文件；其次，它还是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的设计适合一次写入，多次读取的场景，且不支持文件的修改。适合用来做数据分析，并不适合来做网盘应用。

HDFS的优点：

HDFS缺点：

不适合低延时数据访问，比如毫秒级的储存数据，是做不到的
无法高效的对大量小文件进行储存
- 存储大量小文件的话，它会占用NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，应为NameNode的内存总是有限的
- 小文件存储的寻道时间会超过读取时间，违反了HDFS的设计目标
并发写入、文件随机修改
- 一个文件只能有一个写，不运行多个线程同时写
- 仅支持数据append，不支持文件的随机修改

HDFS的架构

HDFS文件块大小

HDFS中的文件在物理上市分块储存（block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小在hadoop2.x版本中是128M（集群模式下，本机模式还是64M），老版本中是64M

HDFS的块比磁盘的块大，其目的是为了最小化寻址开销，如果块设置得足够大，从磁盘传输数据的时间会明显大于定位这个快开始位置所需的时间，因此，传输一个由多个块组成的文件的时间取决于磁盘传输速度。

如果寻址时间为10ms，而传输速率为100MB/s，为了使寻址时间仅占传输时间的1%，我们要将快大小设置为100MB。

二、HDFS命令行操作

基本语法：hadoop fs [OPTIONS]

语法参数：