《Hadoop权威指南 第4版》 - 第三章 Hadoop分布式文件系统 - 设计概念/数据流/Java接口

3.1 HDFS的设计概念

  • HDFS以流式数据访问模式来存储超大的文件
  • HDFS延时较高, HBASE 到可以是较好的选择.
  • 大量的小文件, namenode(命名结点/空间) 将文件系统的元数据存储在内存中,每个大概占150Bytes, 上百万/千万时需要考虑物理机的内存大小
  • HDFS只支持单用户在 " 文件末尾 " 的追加的方式写入数据

3.2 HDFS 的概念

  • 数据块: 数倍于磁盘的数据块, 通常MapReduce中的map任务一次只处理一个HDFS块中的数据, 也不会过大(涉及到集群)
  • namenode 和 datanode
    • namenode为管理结点,文件系统的命名空间 ,保存整个文件系统树的所有文件信息,记录每个文件在各个结点中的存储信息(文件和数据块的互相引用关系)
    • datanode为数据结点,
  • 客户端Client,通过namenode和datanode交互来访问整个文件系统
  • 块缓存,访问频繁的块会被显式的加载到DataNode的内存中
  • 联邦HDFS,适用于超大集群,内存会成为瓶颈,联邦的HDFS的namenode允许进行扩展,每个node只管理一部分文件,如不同的目录对应不同的node
  • HDFS的高可用性
    • namenode存在单点故障,Hadoop2 增加了 “活动-备份” 的nameNode模式

3.3 命令行模式

  • 输入hadoop fs -help 获取命令大全

猜你喜欢

转载自www.cnblogs.com/zhazhaacmer/p/12133377.html