由于对版本信息不是很清楚,所以选择了5.9.3这个版本,组件下载链接http://archive.cloudera.com/cdh5/cdh/5/
1)hadoop
1.1 只安装一台虚拟机 内存分配4g,所以搭建了伪分布式,将所有的守护进程运行在一个节点首先是配置虚拟机环境(联通外网),然后安装jdk及卸载openjdk,关闭防火墙及安全子系统,并设置开机不启动。
1.2 配置Hadoop ${HADOOP_HOME}---hadoop的安装目录
1.2.1解压命令 tar -zxvf hadoop-2.6.0-cdh5.9.3.tar.gz -C /opt/modules/
配置 hadoop-env.sh mapred-env.sh yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.8.0_191
1.2.2 配置core-site.xml(hdfs相关配置)
=============core-site.xml===================
<!-- NameNode地址,8020是指定进程8020,访问入口 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hostname:8020</value>
</property>
<!-- hadoop在运行时产生的文件,元数据在本地的存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/ hadoop-2.6.0-cdh5.9.3/data</value>
</property>
============================================
1.2.3
=============hdfs-site.xml============
<!-- 存放到hdfs上的文件的副本数,伪分布式配置为1 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
======================================
1.3 格式化namenode
${HADOOP_HOME}目录下:
$ bin/hdfs namenode -format
1.4 配置YARN 任务调度 (Mapreduce) 资源管理(resourcemanager nodemanager)
${HADOOP_HOME}/etc/hadoop目录下配置yarn-site.xml
=======yarn-site.xml=====
<!-- 指定ResorceManager所在服务器的主机名 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>[hostname]</value>
</property>
<!-- 指明在执行MapReduce的时候使用shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
====================================
复制并重名模板文件
$ cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
=======mapred-site.xml=====
${HADOOP_HOME}/etc/hadoop目录下配置mapred-site.xml
<!-- 指定MapReduce基于Yarn来运行 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
=====================================
1.5 配置日志聚合
=======mapred-site.xml=========
**追加到原来配置和后面
<!--指定jobhistory服务的主机及RPC端口号-->
<property>
<name>mapreduce.jobhistory.address</name>
<!--配置实际的主机名和端口-->
<value>[hostname]:10020</value>
</property>
<!-- 指定jobhistory服务的web访问的主机及RPC端口号 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>[hostname]:19888</value>
</property>
==============yarn-site.xml=======
<!-- 启用日志聚合功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保存时间 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>86400</value>
</property>