Hadoop入门基础配置——jdk和Hadoop

Hadoop简介：

Hadoop一个分布式系统基础构架，由Apache基金会开发（相当于红十字会，里面软件都是免费的）。Hadoop的框架最核心的设计是HDFS（海量的数据提供了存储、分布式存储多节点；副本（Replication）:默认3个；负载均衡：平衡数据防止数据倾斜；离线存储）和MapReduce（海量的数据提供了计算）。官网： http://hadoop.apache.org/

HADOOP组成部分

NameNode:

简称NN，整个集群大脑。存储的是元数据信息（数据的基本信息。如数据的大小数据的存入时间等）。负责所有节点的总体调度和存储

DataNode:

具体存储数据的节点。数据以块（block）信息存储，默认大小128M，可以修改。

顺序写入，末尾追加，不支持随机存储。

SecondaryNameNode:

负责协调NameNode （NN）和DataNode （DN）。

HADOOP环境搭建JDK安装

①解压

tar -zxvf hadoop-2.6.5.tar.gz -C /path -C是指定解压的目录

②配置环境变量

进入vi /etc/profile在末尾追加

export JAVA_home=/jdk/jdk1.8.0_171 jdk的解压路径（包含解压文件名称）

export JRE_HOME==/jdk/jdk1.8.0_171 jdk的解压路径（包含解压文件名称）

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

③配置生效

source /etc/profile

④测试是否成功

输入命令java –version 出现下面的界面即可

Hadoop单机版安装（目录说明）

①解压

tar -zxvf hadoop-2.6.5.tar.gz -C /path -C是指定解压的目录

bin：Hadoop最基本的管理脚本和使用脚本，这些脚本是sbin目录下管理脚本的基础实现，用户可以用这些脚本管理和使用hadoop

etc：hadoop配置文件所在的目录，包括core-site.xml、hdfs-site.xml、mapred-site.xml等从hadoop1.0继承而来的配置文件和yarn-site.xml等hadoop2.0新增的文件

include：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是C++定义的，通常用于C++程序访问HDFS或者编写MR程序

lib：该目录提供了对外编程的静态库和动态库，与include目录下的头文件结合使用

libexec：各个服务所对应的shell配置文件所在目录，可用于配置日志输出目录、启动参数（比如JVM参数）等基本信息

sbin：hadoop管理脚本所在目录，主要包括HDFS和YARN中各类服务的启动/关闭脚本

share：hadoop 各个模块编译后的jar包所在目录

② 配置环境变量

vi /etc/profile

末尾追加(Hadoop的环境变量需要配置两个，bin和sbin)

export HADOOP_HOME= Hadoop的解压路径和jdk一样

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置文件生效

source /etc/profile

③修改vi hadoop-evn.sh（此文件放在本文/root/xcl/hadoop-2.6.5/etc/hadoop目录下，并不是系统的目录/etc目录下）

找到export JAVA_HOME=${JAVA_HOME}将其修改为自己JDK的路径

④修改vi core-site.xml hadoop-evn.sh（此文件放在本文/root/xcl/hadoop-2.6.5/etc/hadoop目录下，并不是系统的目录/etc目录下）

此处的ip为自己虚拟机上的用 ip addr 命令查出的ip 如：查出ip为20.1.0.69

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoopDir/tmp/data</value>

</property>

在自己虚拟机上记着要创建这一串文件夹（mkdir –p /opt/hadoopDir/tmp/data）

⑤ 修改hdfs-site.xml（副本文件默认为3，此处设置为1）

<name>dfs.replication</name>

</property>

#下面这两个可以不用配置，集群环境可以保留默认值

<name>dfs.namenode.name.dir</name>

<value>/opt/hadoopDir/tmp/namenodeData</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/opt/hadoopDir/tmp/datanodeData</value>

</property>

在自己虚拟机上记着要创建这一串文件夹（mkdir –p /opt/hadoopDir/tmp/ datanodeData）

⑥ 启动Hadoop

首次启动需要格式化namenode命令如下：

hadoop namenode –format

格式化之后进行启动（必须进入/root/xcl/hadoop-2.6.5/sbin目录启动，如启动过，则先停止stop-dfs.sh）

./start-dfs.sh （在sbin目录下用此命令，在其他目录则可以去掉“./”）

安装过程需要输入密码，密码是系统密码

启动成功后查看进程（用jps命令，必须在sbin目录下）

到这里表示安装成功

注：如果没有namenode不成功，可以尝试修改主机名（hostnamectl set-hostname 要改名字）以及修改映射文件（vi hosts）