Hadoop单机模式的分布式计算框架配置——大数据

一，配置一台普通的虚拟机

二、解压安装Hadoop

之前有做安装笔记：https://blog.csdn.net/hu_belif/article/details/82391003

三、配置Java与Hadoop的环境变量

键入命令：

vim /etc/profile

按i进入插入状态，开始使用vim编辑器编辑：

在末尾插入下列这段代码：

export JAVA_HOME='Path'
export HADOOP_HOME='Path'
export JRE_HOME=${JAVA_HOME}/jre
export JAVA_PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin
export PATH=$PATH:${JAVA_PATH}:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH

注意：上面这段代码中‘Path’要替换为自己的jdk与Hadoop安装路径

保存后退出键入以下命令，使环境变量立即生效：

source /etc/profile

测试：

javac -version   或  java -version

然后输入had后按Tab可以自动补全，证明Hadoop环境也同时配置成功。

四、配置主机名与主机IP映射（贼重要）

配置主机名，键入以下命令：

vim /etc/hosts

格式（IP 用户名）：

扫描二维码关注公众号，回复： 3139045 查看本文章

配置主机IP映射，键入以下命令：

vim /etc/sysconfig/network

格式：

五、修改配置文件

进入Hadoop的安装路径中，进入etc/hadoop下：

①

修改core-site.xml

在<configuration>中添加以下代码段：

<property>
       <name>fs.defaultFS</name>      
       <value>hdfs://hadoop1:9000</value>
</property>
#对于配置过完全分布的虚拟机来讲就是删掉其他所有的property，只留下这一个并修改

注意：hadoop1是我的用户名，不一样的你要改一下。

②

修改hdfs-site.xml

添加方式同上，代码段：

<property>
          <name>dfs.replication</name>
          <value>1</value>
</property>
#对于配置过完全分布的虚拟机来讲就是删除其他的property，仅添加以下的一个
<property>                                             
         <name>dfs.permissions</name>                                                                         
         <value>false</value>                                                  
</property>

③

修改slaves

在里面加上自己的主机名字（用户名）即可。

如图：

到这里为止，单机模式就配置完毕啦。

特别注意：

这里强调以下配置完全分布与单机模式分布时注意事项：

注意：如果你的虚拟机是配置过完全分布式的话，你还需要再删除剩余两个（yarn-site.xml与mapred-env.sh）配置文件<configuration>中所有的property。

六、启动前的格式化(很重要)

创建三个文件夹：tmp、namenode、datanode。

进入自己Hadoop的安装路径，首先需要在hadoop安装文件下创建三个目录：tmp，datanode，namenode,分别用来存储临时文件数据和计算路径。

键入以下的命令：

hadoop namenode -format

七、启动并检测

键入以下命令进行启动：

start-all.sh

检测方法：

①用MapReduce计算一下pi的值

测试mapreduce（分布式算法）（hadoop自带的程序，计算pi的值）：

进入Hadoop安装目录下的 /share/hadoop/mapreduce/

然后执行：

hadoop jar hadoop-mapreduce-examples-2.8.4.jar pi 20 50

结果：

②jps验证

检测完毕后，单机模式的分布式计算框架就搭建好了，是不是比较简单呢？

完全分布式（集群）搭建：https://blog.csdn.net/hu_belif/article/details/82389564