搭建hadoop2.4.0伪分布式


+==========================================搭建伪分布式hadoop===========================


+======================================准备工作/下载及安装软件  开始===========================
  0.下载新新版本的ubuntu
     见网上教程
  1.JDK下载安装
    下载地址:http://download.oracle.com/otn-pub/java/jdk/8u5-b13/jdk-8u5-linux-x64.tar.gz
    减    压:tar –zxvf  jdk-8u5-linux-x64.tar.gz
    环境变量:
    vim /etc/profile
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin: $PATH
验    证:java –version
  2.maven下载安装
    下载地址:http://apache.fayea.com/apache-mirror/maven/maven-3/3.2.1/binaries/apache-maven-3.2.1-bin.tar.gz
    减    压:tar –xvf  apache-maven-3.2.1-bin.tar.gz
    环境变量:
    vim /etc/profile
    export MAVEN_HOME=/opt/hadoop/software/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH
验    证:mvn –version
  3.ProtoclBuffer下载安装
    下载地址:https://code.google.com/p/protobuf/downloads/detail?name=protobuf-2.5.0.tar.gz&can=2&q=
    减    压:tar –xvf  protobuf-2.5.0.tar.gz
    安    装:
              ./configure --prefix=/opt/hadoop/software/protobuf
              make
              make install
    环境变量:
    vim /etc/profile
    export PROTOC_HOME=/opt/hadoop/software/protobuf
PATH=$PROTOC_HOME/bin:$PATH
验    证:protoc –-version
  4.CMake下载安装
    下载地址:http://www.cmake.org/files/v2.8/cmake-2.8.12.2.tar.gz
    减    压:tar –xvf  cmake-2.8.12.2.tar.gz
    安    装:
    ./bootstrap –prefix=/home/hadoop/software/cmake
    make
    make install
    环境变量:
    vim /etc/profile
    export CMAKE_HOME=/opt/hadoop/software/cmake
PATH=$ CMAKE_HOME/bin:$PATH
验    证:cmake –version
5.安装其他依赖软件
  yum install openssl-devel
yum install ncurses-devel
  6.hadoop源码下载编译安装
    下载地址:http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.4.0/hadoop-2.4.0-src.tar.gz
    减    压:tar –xvf  hadoop-2.4.0-src.tar.gz
    编    译:
              目录/opt/hadoop/hadoop-2.4.0-src中,执行命令
mvn package -DskipTests -Pdist,native

进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
    环境变量:
    vim /etc/profile
    export HADOOP_PREFIX=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$PATH:HADOOP_PREFIX/bin
  7.配置SSH免密码登陆
    生成公钥和私钥
ssh-keygen -t rsa
进入 ~/.ssh 目录
cat id_rsa.pub >> authorized_keys
然后使用ssh localhost命令测试ssh是否配置正确
8.hadoop伪分布式配置
  A.进入cd hadoop-2.4.0/etc/hadoop/
  给所有的.sh 文件增加可执行权限
  chmod +x *.sh
  B.修改hadoop-env.sh
    vim hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
修改为
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
  C.修改core-site.xml;注意:配置hdfs://localhost:9000中hadoop是主机名称, 使用hostname命令查看
    在configuration节点中增加
<property>
          <name>fs.defaultFS</name>
          <value>hdfs://localhost:9000</value>
      </property>
      <property>
          <name>hadoop.tmp.dir</name>
          <value>/opt/hadoop/hadoop/hadoop-2.4.0/data/tmp</value>
      </property>
    D.修改hdfs-site.xml
      在configuration节点中增加
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
  E.修改yarn-site.xml
    在configuration节点中增加
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.resourcemanager.address</name>
    <value>localhost:8032</value>
</property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>localhost:8031</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hadoop:8033</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>localhost:8030</value>
</property>
<property>
    <name>yarn.web-proxy.address</name>
    <value>localhost:8888</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
9.启动hadoop
  A.格式化namenode
    进入到hadoop安装目录的bin目录下执行:./hadoop namenode –format
  B.启动伪分布式集群
    进入到hadoop安装目录的sbin目录下执行:./start-all.sh
  C.查看启动是否成功
    执行jps命令成功结果如下:
    7552 Jps
6858 SecondaryNameNode
6380 NameNode
6601 DataNode
7038 ResourceManager
7281 NodeManager


10.浏览器访问查看集群状态
    http://localhost:50070
    查看resourcemanager上cluster运行状态
    http://http://hadoop1:8088/cluster:8088/cluster
11.运行hadoop自带的WordCount小程序(进入到hadoop安装目录的bin目录下)
    第一步:./hadoop fs -mkdir -p myIn 在HDFS上创建文件夹myIn
    第二步:本地目录下..创建几个文本文件,然后在里边写入单词, 如:fileA.txt, fileB.txt.
    第三步:./hadoop fs -put file*.txt myIn  //  将刚才的几个文件放入到hadoop的文件系统之中
    第四步:./hadoop fs -cat input/file01.txt   //查看刚刚文本中内容命令
    第五步:执行
            ./hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
      第六步:hadoop fs -ls output会显示生成的结果文件中
      第七步:./hadoop fs -cat output/part-r-00000
      第八步: (localhost:8088可以查看到正在运行任务的进度等信息)
      第九步:hadoop中HDFS操作命令官网地址:  http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#lsr
+======================================准备工作/下载及安装软件  结束===============

或者:
sudo apt-get install maven
sudo apt-get install protobuf-compiler
sudo apt-get install cmake
sudo apt-get install zlib1g.dev
sudo apt-get install g++
sudo apt-get install libglib2.0-dev
sudo apt-get install libssl-dev

+======================================过程中遇到问题及解决办法=========开始===================
  1.新建用户后终端只显示user@hostname ~, 正常(root@hadoop1:/usr/local/hadoop/sbin#)
    解决:查看/etc/passwd该配置文件中,你新建的用户用的是不是bash,不是的话就改过来/  /.bashrc里面加上PS1="[\u@\h \W]\$"就可以了
  2.格式化结点(数据结点也启不来) ./hadoop namenode -format
    解决:把/opt/hadoop/hadoop2.4.0/data目录全部干掉, 因为之前已经格式化过了
  3.ubuntu安装完成后, 如果是代理下上网的话,需要设置一下火狐浏览器的代理
  4.修改主机名称
    /etc/hostname文件中内容重启机器(utuntu),重启系统查看
  5.执行./hdfs dfsadmin -report 后如下错误:
    WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform
    ??:可能是由于apache提供的32位hadoop版本, 而我们在64位机器上装, 需要在64位下编译
  6.其它就是一些linux系统配置等问题
+======================================过程中遇到问题及解决办法==========结束=========================

猜你喜欢

转载自houshangxiao.iteye.com/blog/2066410