(二) 配置开发环境 - Hadoop安装与伪分布式集群搭建

Hadoop安装与伪分布式集群搭建

一. 安装JDK
https://blog.csdn.net/weixin_45873289/article/details/104945583
注：这链接里面还有jdk和hadoop安装包
二. 安装Hadoop
在这里插入图片描述
输入tar -zxvf hadoop-3.1.0.tar.gz 解压hadoop安装包(这里需要注意安装包的名称是否正确)*

解压成功
三. 配置Hadoop环境*
设置SSH免密登录
在之后操作集群的时候我们需要经常登录主机和从机，所以设置SSH免密登录时有必要的。
输入如下代码：

 ssh-keygen -t rsa -P ''

生成无密码密钥对，询问保存路径直接输入回车，生成密钥对：id_rsa和id_rsa.pub，默认存储在~/.ssh目录下。

接下来：把id_rsa.pub追加到授权的key里面去。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

然后修改权限：

chmod 600 ~/.ssh/authorized_keys

接着需要启用RSA认证，启动公钥私钥配对认证方式：

vim /etc/ssh/sshd_config 如果提示权限不足在命令前加上sudo；

	1.修改ssh配置：

RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile %h/.ssh/authorized_keys # 公钥文件路径

重启 SSH

			service ssh restart

好了准备工作已经做完了，我们要开始修改 Hadoop 的配置文件了，总共需要修改 6 个文件。分别是：

hadoop-env.sh；
yarn-env.sh ；
core-site.xml；
hdfs-site.xml；
mapred-site.xml；
yarn-site.xml。

hadoop-env.sh 配置：

编辑 hadoop-env.sh在文件中插入如下代码：

**# The java implementation to use.**    
export JAVA_HOME=/java/jdk1.8.0_171   #这里是你jdk的安装路径

yarn-env.sh 配置
编辑yarn-env.sh 插入如下代码：

 export JAVA_HOME=/java/jdk1.8.0_171  #这里也是jdk的路径

3. core-site.xml配置
这个是核心配置文件我们需要在该文件中加入 HDFS 的 URI 和 NameNode 的临时文件夹位置，这个临时文件夹在下文中会创建。

在文件末尾的configuration标签中添加代码如下：

<configuration>  
 <property>  
    <name>fs.default.name</name>  
    <value>hdfs://localhost:9000</value>  
    <description>HDFS的URI，文件系统://namenode标识:端口号</description>  
</property>  
<property>  
    <name>hadoop.tmp.dir</name>  
    <value>/usr/hadoop/tmp</value>  
    <description>namenode上本地的hadoop临时文件夹</description>  
</property>  
</configuration>

4. hdfs-site.xml文件配置

<configuration>  
<property>  
    <name>dfs.name.dir</name>  
    <value>/usr/hadoop/hdfs/name</value>  
    <description>namenode上存储hdfs名字空间元数据 </description>   
</property>  
<property>  
    <name>dfs.data.dir</name>  
    <value>/usr/hadoop/hdfs/data</value>  
    <description>datanode上数据块的物理存储位置</description>  
</property>  
<property>  
    <name>dfs.replication</name>  
    <value>1</value>  
</property>  
</configuration>

5. mapred-site.xml文件配置

	<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

6. yarn-site.xml配置

 <configuration>  
<property>  
        <name>yarn.nodemanager.aux-services</name>  
        <value>mapreduce_shuffle</value>  
</property>  
<property>  
        <name>yarn.resourcemanager.webapp.address</name>  
        <value>192.168.2.10:8099</value>  
        <description>这个地址是mr管理界面的</description>  
</property>  
</configuration>

**

创建文件夹

**
我们在配置文件中配置了一些文件夹路径，现在我们来创建他们，在/usr/hadoop/目录下使用hadoop用户操作，建立tmp、hdfs/name、hdfs/data目录，执行如下命令：

mkdir -p /usr/hadoop/tmp 
mkdir /usr/hadoop/hdfs 
mkdir /usr/hadoop/hdfs/data 
mkdir /usr/hadoop/hdfs/name

将Hadoop添加到环境变量中

vim /etc/profile

在文件末尾插入如下代码：

在这里插入图片描述

最后使修改生效：source /etc/profile

验证

现在配置工作已经基本搞定，接下来只需要完成：1.格式化 HDFS 文件、2.启动hadoop、3.验证 Hadoop 即可。

格式化

在使用 Hadoop 之前我们需要格式化一些hadoop的基本信息。

使用如下命令：

hadoop namenode -format

出现如下界面代表成功：
在这里插入图片描述
启动Hadoop

start-dfs.sh

如果输入命令应该会出现如下图界面：
在这里插入图片描述在/hadoop3.1/sbin路径下：
将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

还有，start-yarn.sh，stop-yarn.sh顶部也需添加以下：

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

再次启动start-dfs.sh，最后输入命令 jps 验证,出现如下界面代表启动成功：
在这里插入图片描述
在你虚拟机的图形化界面中打开火狐浏览器输入：http://localhost:9870/ 或者在 windows 机器上输入http://虚拟机ip地址:9870/ 也可以访问 Hadoop 的管理页面。

注:hadoop2.0版本开头的端口号是50070；hadoop3.0开头的是9870

在这里插入图片描述
搭建成功

M27I

发布了3 篇原创文章 · 获赞 0 · 访问量 190

私信关注