大数据Hadoop基础入门到精通

1.hadoop前世今生:

  1) 搜索引擎:网络爬虫+索引服务器(生成索引+检索)

  2) Doung Cutting

  3)  Nutch

    a.分布式存储

    b.分布式计算

  4)GFS论文 doung cutting写了hdfs

2.hadoop概述

  hadoop common:提供网络通信

  hadoop hdfs

  hadoop mapreduce

  hadoop yarn

Hadoop 0.x 1.x

 Hadoop 2.x之后的版本

 Hadoop 概述

hdfs引入 

NameNode是主节点存储元数据,以及每个文件所在的块列表和块所在的DataNode

DataNode存储块数据和校验和

SecondaryNamenode 监控后台数据,获取快照

1)四大模块

2)hdfs(hadoop distributed file system):分布式文件系统

  a.文件系统:文件管理+block块管理

  单机文件系统

  window:FAT16、FAT32、NTFS

  linux:ext 2/3/4、 VFS

  b.分布式文件系统

  多个服务器文件系统

  c.三大组件

  NameNode

  •   元数据:文件名、目录名、属性
  •   文件列表与block列表之间的关系
  •   block与datanode列表映射关系

  Datanode

  block块数据、校验和编码

  SecondaryNameNode

  分担namenode压力,合并编辑日志edits和镜像文件fsimage,合并后将最终的文件返回namenode进行处理

  

 Hadoop概述

YARN引入案例

猜你喜欢

转载自www.cnblogs.com/zhichun/p/11361255.html