Hadoop自学指南

笔记而已仅供参考。

数据: tb级别  pb级别

速度: 持续事实产生诗句

多样化: 半结构化,非结构化,多为数据

价值: 数据挖掘。预测分析(统计报表)

可以构建在廉价机器上

人口密度分析 

hadoop的子项目

  Core 分布式文件系统的计算框架

  HDFS hadoop的分布式文件系统

  Map/Reduce 数据处理框架

 zooKeeper 分布式协同系统

 pig   

 Hive  分布式数据仓库(HiveSQL)

 HBase 可扩展的数据库系统

  。。。

HDFS:

   可靠性:因为创建了多个副本放在不同节点,并且加快读取性能。

   NameNode: 储存元数据(文件名称,大小,权限。。。),映射关系,存放在内存

   DataNode:保存文件内容,在磁盘中

   一个名字节点多个数据节点

 数据复制(冗余机制)

 空间回收机制

缺点: 低延迟数据访问,比如毫秒级别的延迟低的,不适合用hdfs

 大量的小文件不适合(文件越多元数据越大)

 并发写入和随机修改,一个文件只能有一个写者(不适合修改)

 存储单元是block 

 文件被切分成固定代销的数据块

数据块默认大小为64MB(逻辑大小,并不会实际占用磁盘大小)

一个文件被切分成若干个block存储到不同的节点上

默认情况下每个bock都有三个副本

Namenode保存元数据信息包括Block保存在哪个DATANode中(启动时上报)

元数据存储的磁盘文件名为“fsimage”

edits记录对元数据的操作日志(每隔一段时间合并数据操作,类似于关系型数据库的事务)

猜你喜欢

转载自blog.csdn.net/wangzhichaogege/article/details/110518084
今日推荐