Hadoop总结:

Hadoop是什么?

  1. 狭义上:
                HDFS:分布式文件存储系统
                MapReduce:分布式计算框架
                YARN:资源管理任务调度
  1. 广义上:
                特指apache一款由java开发,开源的大户数据处理平台软件
                hadoop生态圈,提供大数据一站式解决方案,大数据软件几乎都有!
 

hadoop 的发展:

Google三篇论文  之父--cutting(卡大爷)

 

hadoop集群的搭建:

Hadoop集群介绍:

发行版本:

        社区版:apache官方版
        商业版:cloudera---CDH

版本演化:

           1.x--2.x(高阶版本)---3.x
 

hadoop集群:【都是标准的主从集群   逻辑上分离 物理上在一起】

        hdfs集群(解决分布式文件存储问题):
                           主角色:namenode
                          从角色:detanode
                          主角是辅助角色:secondarynamenode
 
        yarn集群(资源调度任务管理):
                           主角是:resourcemanager
                           从角色:nodemanager
             
        MR集群(其实没有):
                           是在代码层面组件,本身就是java程序
 

1:服务器环境准备

             时间同步 防火墙 免密登录 hosts映射 jdk

2:安装包编译

 2.1:为什么要编译

        •   官方只提供源码包 需要自己编译
        •   软件运行某些特性跟操作系统相关 结合具体操作系统编译符合它版本的软件
        •   修改源码中某些属性

3:安装包目录结构

 基本管理脚本目录------------bin
 启动关闭脚本-----------------sbin
 配置文件目录-------------------etc
 编译后jar 官方自带示例----share
 

4:配置文件

 shell脚本---------hadoop-env.sh 导入java_home
 xml文件------------core hdfs mapred yarn---site.xml(用户自定义配置文件) xxx---default.xml(默认配置文件)
 slaves-------------配合脚本一键启动 hosts白名单机制

5:namenode format

 首次启动hdfs 只能一次 namenode所在机器上  
  hadoop namenode -format
 初始化操作 创建hadoop工作相关目录和文件

6:hadoop集群启动

 单节点逐个启动

hadoop-daemon.sh start|stop 进程名字 

yarn-daemon.sh start|stop 进程名字

 脚本一键启动

  免密登录 slaves
                 start-dfs.sh   
                 start-yarn.sh     
                 start-all.sh  

7:web ui

 hdfs namenode 50070
 yarn resourcemanager 8088
 

hadoop功能:

jobhistory:查看已经运行历史的job程序

hdfs垃圾回收机制:

                        开启垃圾回收站 把删除的文件首先放置在回收站中 等待配置的时间结束 进行真正的数据删除
 
 

如何模拟实现分布式文件系统:

分布式:

元数据管理:

分块存储:

副本机制:

抽象目录树结构:    

画图介绍:

 

                    



猜你喜欢

转载自www.cnblogs.com/TiePiHeTao/p/11503963.html