安装前的准备

首先要确定hadoop的版本

我们可以进入hadoop官网下载

http://hadoop.apache.org

伪分布式安装

       在一台机器上安装HDFS、YARN所有进程

   规划linux系统目录结构
       （1）/opt
               /datas:测试数据
               /modules:软件安装目录
               /tools:开发工具IDE
               /software:存放软件包
       （2）将上述目录的所属者和所有者改成huadian
               chown huadian:huadian datas
               chown huadian:huadian modules
               chown huadian:huadian tools
               chown huadian:huadian software

安装JDK：

       （1）卸载系统自带JDK
               查看：sudo rpm -qa |grep java
               卸载：
               sudo rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 tzdata-java-2012j-1.el6.noarch java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64

       （2）linux系统自带上传下载软件
               安装：sudo yum install -y lrzsz
                   ...看到Complete表示成功
               上传：rz
               下载：sz
       （3）JDK安装
           a、使用rz上传到software
           b、解压
               tar -zxvf jdk-8u91-linux-x64.tar.gz -C /opt/modules/
           c、配置系统环境变量
               sudo vi /etc/profile
               追加
                   #JAVA_HOME
                   export JAVA_HOME=/opt/modules/jdk1.8.0_91
                   export PATH=${PATH}:${JAVA_HOME}/bin
           d、使其生效
               source /etc/profile
           e、验证
               java -version 1.8.0_91-b14)
               Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed

详细jdk安装可查看我的jdk安装博客

Hadoop安装

分布式

相对于集中式
   集中式：
       一台机器：所有的东西（软件）都放在此计算机上（安装）
   分布式：
       多台机器：将东西进行划分，每台机器存储放一部分

   主从架构：
       主节点：项目经理
           管理者、调度者
       从节点：小弟
           被管理者，干活的

分布式文件系统HDFS

       主节点：
           NameNode
               将存储的文件划分为block块进行存储（128M）
               每个Block副本数量3个，
       从节点：
           DataNode
               管理存储当前DataNode所在节点机器上的数据block

   分布式集群资源管理YARN
       集群资源：CPU core 和内存

       主节点：
           ResourceManager
           管理整个集群的资源，接收client提交的应用
       从节点：
           NodeManager
           管理每个节点（每台机器）资源管理
   综上所述：
       在企业部署Hadoop集群的时候，HDFS的DataNode和YARN nodemanager基本上在一台机器上，充分利用资源

伪分布式安装Hadoop

hadoop 文档：http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html
上传解压

 tar -zxvf hadoop-2.7.3.tar.gz -C /opt/modules/

了解目录结构，删除无用文件（看个人）

     rm -rf bin/*.cmd
            rm -rf sbin/*.cmd
            rm -rf etc/hadoop/*.cmd
            rm -rf share/doc/

大数据hadoop伪分布式安装