hadoop伪分布式环境搭建及其详细讲解

首先参考一下官网的链接 发在这里 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

我这里的虚拟机版本是VMware16.05 centos6.5 hadoop2.5.0 下载链接:http://archive.apache.org/dist/hadoop/common/

第一步:当然是上传解压

tar -zxvf hadoop-2.5.0.tar.gz

第二步:配置JDK

安装过程比较简单,我到时候再贴个比较好的博客在这里。可以自行百度。

第三步:配置环境

1.配置文件目录

修改env.sh 

在mapred-env.sh,yarn-env.sh,hadoop-env.sh

export JAVA_HOME=

将这一句修改为自己的JAVA_HOME,忘记了的话,可以使用echo ${JAVA_HOME}输出

2.修改core-site.xml

1.官网的基本配置项

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

将localhost修改为自己虚拟机的IP,这一步其实就是配置namenode节点在哪台虚拟机上。

2.官网上找到这个core-defalut.xml 在core-xite里面添加下面这些,覆盖原来的配置。

<property>
        <name>hadoop.tmp.dir</name>
        <value></value>
    </property>
    
    <property>
        <name>fs.trash.interval</name>
        <value>10080</value>
    </property>

第一项是修改临时文件的存放位置,第二项是修改删除文件的保留时间,默认是0。

3.修改slaves

加上虚拟机的IP

实际上是配置DataNode节点

4.修改hdfs-site.xml

1.官网基本配置

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

修改hdfs上文件的副本数为1

2.添加 覆盖hdfs-default.xml的配置项 可以在官网找到这个配置项 修改IP即可

<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value></value>
    </property>

这里实际上是配置secondarynamenode的节点在哪台服务器上

5.修改yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    
     <property>
        <name>yarn.resourcemanager.hostname</name>
        <value></value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>640800</value>
    </property>

第一项:map task到reduce任务之间需要shuffle一下

第二项:resource manager在哪台服务器上

第三项:启用日志聚合功能,日志聚合开启后保存到HDFS上。

第四项:聚合后的日志在HDFS上保存多长时间,单位为s

6.修改mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
            
 <property>
        <name>mapreduce.jobhistory.address</name>
        <value></value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value></value>
    </property>
</configuration>
第一项:MapReduce任务启动在yarn上

第二项:MapReduce JobHistory Server地址

第三项:MapReduce JobHistory Server Web UI地址

笔者注:这里删掉了一些Value值可以根据自己的IP和官网端口进行配置

3.配置无密钥登录

1.cd ~

2.先切换到普通用户。然后执行ssh-keygen -t rsa

3.执行后会在用户目录生产.ssh目录和id_rsa、id_rsa.pub文件。然后执行cd .ssh/

4.cp id_rsa.pub authorized_keys中

4.windows页面访问

1.http://ip:50070 文件系统页面

2.http://ip:8088 任务页面

注:如果不能打开,请百度Ubuntu或者centos关闭防火墙的方式。

5.开启服务

先cd hadoop目录

1.sbin/start-all.sh 一次性全部启动 在伪分布式下可以使用 单不建议

2.分模块启动

启动namenode DataNode secondarynamenode

sbin/start-dfs.sh

启动resource manager 和node manager

sbin/start-yarn.sh

3.分组件启动

1.sbin/hadoop-daemon.sh start namenode

2.sbin/hadoop-daemon.sh start datanode

3.sbin/yarn-daemon.sh start resourcemanager

4.sbin/yarn-daemon.sh start nodemanager

5.启动mapreduce history 在8088页面点击history可以查看细节

sbin/mr-jobhistory-daemon.sh start historyserver

作者小白,如果错误请及时指出,下次重新搭建时会把所有的截屏也贴上来。

猜你喜欢

转载自blog.csdn.net/qq_33361080/article/details/82587112