1)HDFS分布式文件系统 2)HDFS核心设计 3 )HDFS体系结构

一、HDFS简介

1.HDFS:Hadoop distributed file system

  一个分布式文件系统

  基于流数据模式访问和处理超大文件的需要而开发

  适合应用在大规模数据集上

2. 优点

  处理超大文件

    能用来存储管理PB级的数据

  处理非结构化数据

  流式的访问数据

    一次写入、多次读写

  运行于廉价的商用机器集群上

    可运行在低廉的商用硬件集群上

    故障时能继续运行且不让用户观察到明显的中断

3. 局限性

  不适合处理低延迟数据访问

    HDFS是为了处理大型数据集分析任务的,主要是为了达到高的数据吞吐量而设计的

    对于低延迟时的访问需求,HBASE是更好的选择

  无法高效存储大量的小文件

    小文件会给Hadoop的扩展性和性能带来严重问题

    利用sequencefile、mapfile等方式归档小文件

  不支持多用户写入及任意修改文件

    只有一个写入着,只能执行追加操作

    不支持多用户对同一文件的写操作,以及在文件任意位置进行修改

4. HDFS特性

  高容错,可扩展性以及可配置性强

  跨平台

  shell命令接口

  机架感应功能

  负载均衡

  web界面

5. HDFS目标

  检测和快速恢复硬件故障

    故障的检测和快速自动恢复是HDFS的一个核心目标

  流式数据访问

    设计成适合进行批量处理

    重视数据吞吐量,而不是数据访问的反应速度

  大规模数据集

    支持大文件存储

    一个单一的HDFS实例能支撑数以千万计的文件

  简化一致性模型

    对文件实行一次性写入,多次读取的访问模式

6. HDFS目标

  移动计算代价比移动数据代价低

  可移植性

  通信协议

未完待续。。。

猜你喜欢

转载自www.cnblogs.com/sumboy/p/9065879.html