CentoOS6下搭建hadoop伪分布式平台

@Hadoop伪分布搭建

你好! 本篇文章主要对伪分布式Hadoop集群环境的安装与配置步骤进行介绍。
本文章的特点是:建立在虚拟机里安装并配置好Linux下搭建伪分布式搭建,安装完可用继续对高可用平台搭建。具体详见下章节。

下面是需要的一些安装文件,需要者自取
[ 提取码:657t ] xftp、测试文件、xshell

1、Xftp软件安装使用

1、 安装好xshell之后需要下载Xftp4(用于传文件,链接中有下载文件xshell、Xftp4哦)
2、 如何传文件?

(1)打开到传输界面在这里插入图片描述
(2)传输文件
在这里插入图片描述
(3)传输成功界面
在这里插入图片描述
3、用rpm装jdk

1、 在根目录下,输入安装命令

  • rpm -i jdk-7u67-linux-x64.rpm
  • whereis java
    安装后,出现如下:在这里插入图片描述

2、配置文件
目录: vi + /etc/profile
export JAVA_HOME=/usr/bin/java
export PATH=$PATH:$JAVA_HOME/bin
3. 更新一下文件
source /etc/profile

4、输入jps,结果出现 xxxx jps,说明安装成功
注意:出现 command not find

<1>、查看是否输入正确,source必须执行,否则修改无效
<2>、更改绝对路径
export JAVA_HOME=/usr/bin/java
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin

2、免秘钥

2.1如何给每台虚拟机免秘钥

1、在家目录下ll -a:查看有无.ssh文件,如果没有就ssh localhost
ssh localhost 之后一定要exit退出,不然出大问题哦
2、cd .ssh ,并ll 查看当前文件
3、 免秘钥操作

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_key

验证
ssh localhost 看看需不需要输入密码

一定要exit哦

补充说明:
在这里插入图片描述
在这里插入图片描述

3、安装hadoop2.6.5

3.1如何安装Hadoop

先在node01中安装,后面传输一下即可,传文件方法前面已介绍(这里传输路径为software文件夹)
1、 利用tar 命令直接解压安装包
(1)存放安装软件 mkdir software
(2)在opt目录中建立gy 文件夹cd /opt
mkdir gy
-tar xf hadoop-2.6.5.tar.gz -C /opt/gy (注:-C的C 是大写)
在这里插入图片描述

到/opt/gy目录下看是否解压好 cd /opt/gy/hadoop-2.6.5
在这里插入图片描述

2、 想要实现任意目录下均可启动hadoop
在目录:cd /opt/gy/hadoop-2.6.5/etc/hadoop/
vi + /etc/profile

export JAVA_HOME=/usr/bin/java
export HADOOP_HOME=/opt/ldy/hadoop-2.6.5
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

(1)在指定目录下,修改profile文

在这里插入图片描述
(2)进入文件内修改(修改完 !wq 保存退出)
在这里插入图片描述
(3)修改完成一定要source
在这里插入图片描述
验证:
输入hd按Tab键可以联想出hdfs
输入start-d按Tab键可以联想出start-dfs
.
就表示配置成功了
不要忘记source,更改会不生效哦

3.2修改Hadoop配置文件

1、在etc目录中修改:cd /opt/gy/hadoop-2.6.5/etc/hadoop
以上路径的etc不是根目录的etc

vi hadoop-env.sh
vi mapred-env.sh
vi yarn-env.sh

给这三个文件夹的JAVA_HOME改成绝对路径:/usr/java/jdk1.7.0_67
如下图所示修改
修改的那句如果有#须要去除
在这里插入图片描述
2、配置vi core-site.xml文件(添加)

<property>
        <name>fs.defaultFS</name>
        <value>hdfs://node01:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/gy/hadoop/pseudo</value>
    </property>	

在两个configuration中间添加
两个configuration之间空间留大一点,如果看不到下方,用键盘的上下键

3、 配置vi hdfs-site.xml

<property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node01:50090</value>
    </property>

注意:
在两个configuration中间添加
两个configuration之间空间留大一点,如果看不到下方,用键盘的上下键
在这里插入图片描述
gy文件夹,改成之前自己设置的文件夹
4、配置slaves
路径是:cd /opt/gy/hadoop-2.6.5/etc/hadoop/
修改slaves文件: vi slaves
node01

(1)到Hadoop路径下查看
在这里插入图片描述
(2)进入此文件夹,显示的localhost
在这里插入图片描述

(2)删除localhost,添加node01

5、格式化hdfs
hdfs namenode -format
只能格式化一次,再次启动集群不要执行,否则clusterID变了

(1)看到下面这句说明成功了
在这里插入图片描述

(2)格式化后/var/gy/hadoop/pseudo就存在了,检查一下看存在没

在这里插入图片描述
6、启动集群
start-dfs.sh

jps后出现以下,即为成功
在这里插入图片描述

如果缺少了
1、首先看日志文件
2、配置文件3.2里面的3节,检查一遍

7、在浏览器里打开node01:50070(别用360浏览器!)
在这里插入图片描述
8、创建目录:hdfs dfs -mkdir -p /user/root
在这里插入图片描述
9、 如何停止集群:stop-dfs.sh

4、跑一个wordcount程序

集群起起来了
1、在hdfs里建立输入目录与输出目录

hdfs dfs -mkdir -p /data/input
hdfs dfs -mkdir -p /data/output

2、将要统计数据的文件上传到输入目录,并查看
(将500miles.txt上传到根目录下,从Windows传到Linux传文件方法,前面介绍的)

hdfs dfs -put 500miles.txt /data/input
hdfs dfs -put -ls /data/input

3、进入MapReduce目录

cd /opt/gy/hadoop-2.6.5/share/hadoop/mapreduce/

4、运行wordcount

hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /data/input /data/output/result

在这里插入图片描述
5、查看结果

hdfs dfs -ls /data/output/result
hdfs dfs -cat /data/output/result/part-r-00000

在这里插入图片描述
6、如何查询错误
(1)通过查询日志,如何查日志呢?找到日志文件

路径:

cd /opt/gy/hadoop-2.6.5

查看hadoop-2.6.5有什么:

ll

在这里插入图片描述
到log里面文件里面

cd logs

查看

ll

在这里插入图片描述
看的是.log文件
(2)查看末尾一百行

tail -100 hadoop-root-journalnode-node01.log

在这里插入图片描述

5、问题小结

  • 网络连接出现错误,找不到网页
    1、换一个浏览器试试,不要QQ、360浏览器
    2、配置文件时修改处#没有删除

猜你喜欢

转载自blog.csdn.net/weixin_44926307/article/details/106773768