作者 | tianyouououou

责编 | Carol

来源 | CSDN 博客

封图 | CSDN付费下载于视觉中国

最近，作者整理了一套Hadoop搭建方案。最后的镜像大小1.4G多，使用docker子网，容器重新启动不需要重新配置/etc/hosts文件。

配置过程中参考了如下博客，有些细节问题这些博客里面解释的更加详细。

ssh配置部分：

https://blog.csdn.net/weixin_42051109/article/details/82744993

wordcount部分：

扫描二维码关注公众号，回复： 9614720 查看本文章

https://blog.csdn.net/alexwym/article/details/82497582

虽然配置完了，但是有些地方并不完全懂，后续有机会还会做一些补充解释。

* 环境：Ubuntu16.04虚拟机

准备工作

下载解压jdk1.8文件夹
下载解压Hadoop2.8.5文件夹
docker pull centos7基础镜像
建mydocker文件夹
将jdk1.8文件夹和Hadoop文件夹移动到mydocker文件夹（这里为了简洁将Hadoop2.8.5文件夹重命名为Hadoop）
编辑Hadoop文件夹内的文件（避免创建镜像后要修改三遍）

首先进入Hadoop/etc/Hadoop文件夹后修改hadoop.env.sh

tianyou@ubuntu:~/mydocker/Hadoop/etc/Hadoop$ vim hadoop-env.sh

将JAVA_HOME修改为如下路径

export JAVA_HOME= /usr/local/jdk1.8

修改core-site.xml如下

tianyou@ubuntu:~/mydocker/hadoop/etc/hadoop$ vim core-site.xml

<!-- Put site-specific property overrides in this file. -->
<configuration>
      <property>
          <name>fs.defaultFS</name>
          <value>hdfs://hadoop0:9000</value>
      </property>
      <property>
         <name>io.file.buffer.size</name>
         <value>131072</value>
     </property>
     <property>
          <name>hadoop.tmp.dir</name>
          <value>/usr/local/hadoop/tmp</value>
     </property>
</configuration>

修改yarn-site.xml

tianyou@ubuntu:~/mydocker/hadoop/etc/hadoop$ vim yarn-site.xml

<configuration>
     <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
     <property>
         <name>yarn.resourcemanager.address</name>
         <value>hadoop0:8032</value>
     </property>
     <property>
         <name>yarn.resourcemanager.scheduler.address</name>
         <value>hadoop0:8030</value>
     </property>
     <property>
         <name>yarn.resourcemanager.resource-tracker.address</name>
         <value>hadoop0:8031</value>
     </property>
     <property>
         <name>yarn.resourcemanager.admin.address</name>
         <value>hadoop0:8033</value>
     </property>
   <property>
         <name>yarn.resourcemanager.webapp.address</name>
         <value>hadoop0:8088</value>
     </property>
     <property>
         <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
         <value>org.apache.hadoop.mapred.ShuffleHandler</value>
     </property>
</configuration>

修改mapred-site.xml，我这里是mapred-site.xml.template

tianyou@ubuntu:~/mydocker/hadoop/etc/hadoop$ vim mapred-site.xml.template

<!-- Put site-specific property overrides in this file. -->
<configuration>
 <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

修改hdfs-site.xml（按照datanode配置）

tianyou@ubuntu:~/mydocker/hadoop/etc/hadoop$ vim hdfs-site.xml

<configuration>
    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>file:/usr/local/hadoop/hdfs/data</value>
    </property>
</configuration>

这里修改hadoop配置文件是为了构建镜像时直接将hadoop文件夹COPY到镜像中，再用镜像创建三个容器后不需要在三个容器中分别进行重复的配置工作。

使用Dockerfile构建镜像

1、编辑Dockefile，基于准备好的centos：7基础镜像构建

FROM centos:7
# 选择一个已有的os镜像作为基a础  
# 镜像的作者  
MAINTAINER tianyou
# 安装openssh-server和sudo软件包，并且将sshd的UsePAM参数设置成no  
RUN yum install -y openssh-server sudo \
        && sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config \
#安装openssh-clients
        && yum  install -y openssh-clients \
        && yum install -y vim \
        && yum install -y which \


# 添加测试用户root，密码root，并且将此用户添加到sudoers里  
        && echo "root:root" | chpasswd \
        && echo "root   ALL=(ALL)       ALL" >> /etc/sudoers \
# 下面这两句比较特殊，在centos6上必须要有，否则创建出来的容器sshd不能登录  
        && ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key \
        && ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key \


        && mkdir /var/run/sshd


COPY jdk1.8  /usr/local/jdk1.8/
COPY hadoop /usr/local/hadoop/
ENV HADOOP_HOME /usr/local/hadoop
ENV PATH $HADOOP_HOME/bin:$PATH
ENV JAVA_HOME /usr/local/jdk1.8
ENV PATH $JAVA_HOME/bin:$PATH
EXPOSE 22
CMD ["/usr/sbin/sshd", "-D"]

2、在mydocker文件夹下执行构建命令（因为需要文件访问权限要加sudo，命令最后的，不要丢）

tianyou@ubuntu:~/mydocker$ sudo docker build -t tianyou/centos-java-hadoop .

创建容器

1、创建子网 Hadoopnetwork

tianyou@ubuntu:~/mydocker$ docker network create --subnet=172.19.0.0/16 hadoopnetwork

2、创建容器并指定子网和ip

创建Hadoop0容器

tianyou@ubuntu:~/mydocker$ docker run -it -d --net hadoopnetwork --ip 172.19.0.2 --name hadoop0 -h hadoop0 tianyou/centos-java-hadoop

创建hadoop1容器

tianyou@ubuntu:~/mydocker$ docker run -it -d --net hadoopnetwork --ip 172.19.0.3 --name hadoop1 -h hadoop1 tianyou/centos-java-hadoop

创建Hadoop2容器

tianyou@ubuntu:~/mydocker$ docker run -it -d --net hadoopnetwork --ip 172.19.0.4 --name hadoop2 -h hadoop2 tianyou/centos-java-hadoop

配置ssh

1.进入Hadoop0

tianyou@ubuntu:~/mydocker$ docker exec -it hadoop0 /bin/bash

2.配置ssh密钥

[root@hadoop0 /]# /usr/sbin/sshd && /usr/sbin/sshd-keygen -A && /usr/sbin/sshd

制作密钥，输入ssh-keygen -t rsa，然后敲三次Enter键

[root@hadoop0 /]# ssh-keygen -t rsa

生成的密钥存在 /root/.ssh/id_rsa.pub 文件中，执行指令把密钥存储在 /root/.ssh/authorized_keys 文件中

修改sshd_config配置使提示更简洁，合并指令如下：

[root@hadoop0 /]# cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys && vim /etc/ssh/sshd_config

将配置文件中对应行修改为如下所示：

Port 22
PermitRootLogin yes
PubkeyAuthentication yes
PasswordAuthentication yes
ChallengeResponseAuthentication no
UsePAM yes
PrintLastLog no

Esc进入命令模式，:wq保存
修改ssh_config文件中 StrictHostKeyChecking ask改成no

[root@Master local]# vim /etc/ssh/ssh_config

StrictHostKeyChecking no

Ctrl+P+Q退出Hadoop0容器

进入Hadoop1和Hadoop2容器，进行同样的操作生成ssh密钥和配置

3、将容器的秘钥互相添加

每个容器的 /root/.ssh/authorized_keys 文件都需要填入所有容器的密钥

以上操作结束后在Hadoop2容器中，查看文件，复制出haoop2密钥

[root@hadoop2 /]#  vim  /root/.ssh/authorized_keys

ctrl+P+Q退出，同样复制出Hadoop1和Hadoop0秘钥，将三个秘钥全部复制到三个容器的/root/.ssh/authorized_keys文件中。

复制完成后在每个容器中都执行一次 /usr/sbin/sshd命令。

[root@Master local]# /usr/sbin/sshd

至此，通过ssh可以互相访问，测试一下

[root@hadoop0 /]# ssh hadoop1

ctrl+D返回

完善Hadoop配置

进入Hadoop0，修改hdfs-site.xml 文件如下：

[root@hadoop0 /]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

因为在COPY进容器时按照datanode配置，所以要修改为namenode配置，只需要将三处data修改为name。

<!-- Put site-specific property overrides in this file. --><configuration>    <property>      <name>dfs.replication</name>      <value>2</value>    </property>    <property>      <name>dfs.namenode.name.dir</name>      <value>file:/usr/local/hadoop/hdfs/name</value>    </property></configuration>

通过ssh进入Hadoop1，删除重建hdfs文件

[root@hadoop0 /]# ssh hadoop1[root@hadoop1 ~]# rm -rf /usr/local/hadoop/hdfs && mkdir -p /usr/local/hadoop/hdfs/data

ctrl+D退出，同样进入Hadoop2，删除重建hdfs文件
ctrl+D退出，回到Hadoop0，删除重建hdfs文件，注意这里是name。

[root@hadoop0 /]# rm -rf /usr/local/hadoop/hdfs && mkdir -p /usr/local/hadoop/hdfs/name

修改slaves文件

[root@hadoop0 local]# vim /usr/local/hadoop/etc/hadoop/slaves

填入Hadoop1,Hadoop2

localhosthadoop1hadoop2

格式化hdfs（这里当时报了一个错，找不到JAVA_HOME，因为Hadoop-env.sh中JAVA_HOME=后面多敲了一个空格，删掉后成功运行）

[root@hadoop0 /]# hdfs namenode -format

修改/etc/profile文件，修改后可以使用jps 或 Hadoop fs xx 指令

[root@hadoop0 local]# vim /etc/profile

将下面的代码添加到文件末尾，保存退出

export JAVA_HOME=/usr/local/jdk1.8export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source使配置生效

[root@hadoop1 ~]# source /etc/profile

ssh进入Hadoop1和hadoop2做同样修改。
回到Hadoop0进入Hadoop/sbin，执行start-all命令启动

[root@hadoop0 local]# cd /usr/local/hadoop/sbin/[root@hadoop0 sbin]# ./start-all.sh

可以运行如下命令查看节点情况

[root@hadoop0 sbin]# hadoop dfsadmin -report

测试wordcount程序

启动Hadoop之后（一定要先启动），可以运行自带的wordcount程序来测试一下

进入Hadoop文件夹在hdfs建立input文件夹

[root@hadoop0 hadoop]# bin/hdfs dfs -mkdir -p /data/input

在容器中创建my_wordcount.txt文件，编辑一些单词，Esc :wq保存

[root@hadoop0 hadoop]# vim my_wordcount.txt

将本地的文件上传到hdfs

[root@hadoop0 hadoop]# bin/hdfs dfs -put my_wordcount.txt /data/input

启动wordcount程序，指定输入文件和输出文件（版本号需要改）

[root@hadoop0 hadoop]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount /data/input/my_wordcount.txt /data/out/my_wordcount

查看运行结果

[root@hadoop0 hadoop]# bin/hdfs dfs -cat /data/out/my_wordcount/part-r-00000

你学会了吗？如果你对本文有什么想法或意见，欢迎评论区告诉我们！

在全民抗疫的特殊时期下，在人员复杂、流动量大地方的出入口处都设置了无接触式无感红外人体测温系统。

在这次疫情防控中，无感人体测温系统发挥了怎样的作用？高精准的无感人体测温系统的核心技术武器是什么？对于开发者们来说，大家应该了解哪些技术？

今晚 8点《多场景疫情防控：解读云边端联动下的全栈 AI 技术应用》

推荐阅读：必看！Spark 进阶之路之「SparkSQL」入门概述 | 博文精选
如果你觉得 Git 很迷惑人，那么这份小抄正是为你准备的！
开辟 Dart 到 Native 的超级通道，饿了么跨平台的最佳实践
比特币归谁所有？有人通过分析区块链数据集找到答案
为什么说Transformer就是图神经网络？
脱单？撒狗粮？加班？女神节这么过 | 程序员有话说
真香，朕在看了！

CSDN云计算

发布了273 篇原创文章 · 获赞 1213 · 访问量 110万+

他的留言板关注

6 个步骤，教你在Ubuntu虚拟机环境下，用Docker自带的DNS配置Hadoop | 附代码

完善Hadoop配置

测试wordcount程序

猜你喜欢