搭建hadoop2.4.0伪分布式

+==========================================搭建伪分布式hadoop===========================

+======================================准备工作/下载及安装软件开始===========================
0.下载新新版本的ubuntu
     见网上教程
1.JDK下载安装
    下载地址：http://download.oracle.com/otn-pub/java/jdk/8u5-b13/jdk-8u5-linux-x64.tar.gz
    减    压：tar –zxvf jdk-8u5-linux-x64.tar.gz
    环境变量：
    vim /etc/profile
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin: $PATH
验    证：java –version
2.maven下载安装
    下载地址：http://apache.fayea.com/apache-mirror/maven/maven-3/3.2.1/binaries/apache-maven-3.2.1-bin.tar.gz
    减    压：tar –xvf apache-maven-3.2.1-bin.tar.gz
    环境变量：
    vim /etc/profile
    export MAVEN_HOME=/opt/hadoop/software/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH
验    证：mvn –version
3.ProtoclBuffer下载安装
    下载地址：https://code.google.com/p/protobuf/downloads/detail?name=protobuf-2.5.0.tar.gz&can=2&q=
    减    压：tar –xvf protobuf-2.5.0.tar.gz
    安    装：
              ./configure --prefix=/opt/hadoop/software/protobuf
              make
              make install
    环境变量：
    vim /etc/profile
    export PROTOC_HOME=/opt/hadoop/software/protobuf
PATH=$PROTOC_HOME/bin:$PATH
验    证：protoc –-version
4.CMake下载安装
    下载地址：http://www.cmake.org/files/v2.8/cmake-2.8.12.2.tar.gz
    减    压：tar –xvf cmake-2.8.12.2.tar.gz
    安    装：
    ./bootstrap –prefix=/home/hadoop/software/cmake
    make
    make install
    环境变量：
    vim /etc/profile
    export CMAKE_HOME=/opt/hadoop/software/cmake
PATH=$ CMAKE_HOME/bin:$PATH
验    证：cmake –version
5.安装其他依赖软件
yum install openssl-devel
yum install ncurses-devel
6.hadoop源码下载编译安装
    下载地址：http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.4.0/hadoop-2.4.0-src.tar.gz
    减    压：tar –xvf hadoop-2.4.0-src.tar.gz
    编    译：
              目录/opt/hadoop/hadoop-2.4.0-src中，执行命令
mvn package -DskipTests -Pdist,native

进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
    环境变量：
    vim /etc/profile
    export HADOOP_PREFIX=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$PATH:HADOOP_PREFIX/bin
7.配置SSH免密码登陆
    生成公钥和私钥
ssh-keygen -t rsa
进入～/.ssh 目录
cat id_rsa.pub >> authorized_keys
然后使用ssh localhost命令测试ssh是否配置正确
8.hadoop伪分布式配置
A.进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
B.修改hadoop-env.sh
    vim hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
修改为
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
C.修改core-site.xml；注意：配置hdfs://localhost:9000中hadoop是主机名称，使用hostname命令查看
    在configuration节点中增加
<property>
          <name>fs.defaultFS</name>
          <value>hdfs://localhost:9000</value>
      </property>
      <property>
          <name>hadoop.tmp.dir</name>
          <value>/opt/hadoop/hadoop/hadoop-2.4.0/data/tmp</value>
      </property>
    D.修改hdfs-site.xml
      在configuration节点中增加
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
E.修改yarn-site.xml
    在configuration节点中增加
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.resourcemanager.address</name>
    <value>localhost:8032</value>
</property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>localhost:8031</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hadoop:8033</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>localhost:8030</value>
</property>
<property>
    <name>yarn.web-proxy.address</name>
    <value>localhost:8888</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
9.启动hadoop
A.格式化namenode
    进入到hadoop安装目录的bin目录下执行：./hadoop namenode –format
B.启动伪分布式集群
    进入到hadoop安装目录的sbin目录下执行：./start-all.sh
C.查看启动是否成功
    执行jps命令成功结果如下：
    7552 Jps
6858 SecondaryNameNode
6380 NameNode
6601 DataNode
7038 ResourceManager
7281 NodeManager

10.浏览器访问查看集群状态
    http://localhost:50070
    查看resourcemanager上cluster运行状态
    http://http://hadoop1:8088/cluster:8088/cluster
11.运行hadoop自带的WordCount小程序（进入到hadoop安装目录的bin目录下）
    第一步：./hadoop fs -mkdir -p myIn 在HDFS上创建文件夹myIn
    第二步：本地目录下..创建几个文本文件，然后在里边写入单词，如：fileA.txt, fileB.txt.
    第三步：./hadoop fs -put file*.txt myIn // 将刚才的几个文件放入到hadoop的文件系统之中
    第四步：./hadoop fs -cat input/file01.txt   //查看刚刚文本中内容命令
    第五步：执行
            ./hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
      第六步：hadoop fs -ls output会显示生成的结果文件中
      第七步：./hadoop fs -cat output/part-r-00000
      第八步： (localhost:8088可以查看到正在运行任务的进度等信息)
      第九步：hadoop中HDFS操作命令官网地址： http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#lsr
+======================================准备工作/下载及安装软件结束===============

或者：
sudo apt-get install maven
sudo apt-get install protobuf-compiler
sudo apt-get install cmake
sudo apt-get install zlib1g.dev
sudo apt-get install g++
sudo apt-get install libglib2.0-dev
sudo apt-get install libssl-dev

+======================================过程中遇到问题及解决办法=========开始===================
1.新建用户后终端只显示user@hostname ~，正常(root@hadoop1:/usr/local/hadoop/sbin#)
    解决：查看/etc/passwd该配置文件中，你新建的用户用的是不是bash,不是的话就改过来／ /.bashrc里面加上PS1="[\u@\h \W]\$"就可以了
2.格式化结点（数据结点也启不来） ./hadoop namenode -format
    解决：把/opt/hadoop/hadoop2.4.0/data目录全部干掉，因为之前已经格式化过了
3.ubuntu安装完成后，如果是代理下上网的话，需要设置一下火狐浏览器的代理
4.修改主机名称
    /etc/hostname文件中内容重启机器（utuntu），重启系统查看
5.执行./hdfs dfsadmin -report 后如下错误：
    WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform
    ？？：可能是由于apache提供的32位hadoop版本，而我们在64位机器上装，需要在64位下编译
6.其它就是一些linux系统配置等问题
+======================================过程中遇到问题及解决办法==========结束=========================

搭建hadoop2.4.0伪分布式

猜你喜欢