Hadoop入门基础配置——jdk和Hadoop

Hadoop入门基础配置——jdk和Hadoop

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://mp.csdn.net/postedit/82432180

Hadoop简介:

Hadoop一个分布式系统基础构架,由Apache基金会开发(相当于红十字会,里面软件都是免费的)。Hadoop的框架最核心的设计是HDFS(海量的数据提供了存储、分布式存储 多节点;副本(Replication):默认3个;负载均衡:平衡数据 防止数据倾斜;离线存储)和MapReduce(海量的数据提供了计算)。官网: http://hadoop.apache.org/

HADOOP组成部分

NameNode:

简称NN,整个集群大脑。存储的是元数据信息(数据的基本信息。如数据的大小数据的存入时间等)。负责所有节点的总体调度和存储

DataNode:

具体存储数据的节点。数据以块(block)信息存储,默认大小128M,可以修改。

顺序写入,末尾追加,不支持随机存储。

SecondaryNameNode:

负责协调NameNode (NN)和DataNode (DN)。

 

HADOOP环境搭建JDK安装

①解压

tar -zxvf hadoop-2.6.5.tar.gz  -C /path  -C是指定解压的目录

②配置环境变量

进入vi /etc/profile在末尾追加

 

export JAVA_home=/jdk/jdk1.8.0_171  jdk的解压路径(包含解压文件名称)

export JRE_HOME==/jdk/jdk1.8.0_171         jdk的解压路径(包含解压文件名称)

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

③配置生效

source  /etc/profile

④测试是否成功

输入命令java –version 出现下面的界面即可

Hadoop单机版安装(目录说明)

①解压

tar -zxvf hadoop-2.6.5.tar.gz  -C /path  -C是指定解压的目录

 

 

bin:Hadoop最基本的管理脚本和使用脚本,这些脚本是sbin目录下管理脚本的基础实现,用户可以用这些脚本管理和使用hadoop

etc:hadoop配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从hadoop1.0继承而来的配置文件和yarn-site.xml等hadoop2.0新增的文件

include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是C++定义的,通常用于C++程序访问HDFS或者编写MR程序

lib:该目录提供了对外编程的静态库和动态库,与include目录下的头文件结合使用

libexec:各个服务所对应的shell配置文件所在目录,可用于配置日志输出目录、启动参数(比如JVM参数)等基本信息

sbin:hadoop管理脚本所在目录,主要包括HDFS和YARN中各类服务的启动/关闭脚本

share:hadoop 各个模块编译后的jar包所在目录

 

② 配置环境变量

vi /etc/profile

末尾追加(Hadoop的环境变量需要配置两个,binsbin)

export HADOOP_HOME=  Hadoop的解压路径和jdk一样

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置文件生效

source /etc/profile

③修改vi  hadoop-evn.sh(此文件放在本文/root/xcl/hadoop-2.6.5/etc/hadoop目录下,并不是系统的目录/etc目录下)

找到export JAVA_HOME=${JAVA_HOME}将其修改为自己JDK的路径

④修改vi  core-site.xml hadoop-evn.sh(此文件放在本文/root/xcl/hadoop-2.6.5/etc/hadoop目录下,并不是系统的目录/etc目录下)

此处的ip为自己虚拟机上的用 ip addr 命令查出的ip 如:查出ip为20.1.0.69

<property>

<name>fs.defaultFS</name>

<value>hdfs://20.1.0.69:9000</value>

</property>

 

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoopDir/tmp/data</value>

</property>

 

在自己虚拟机上记着要创建这一串文件夹(mkdir –p /opt/hadoopDir/tmp/data

⑤   修改hdfs-site.xml(副本文件默认为3,此处设置为1)

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

 

#下面这两个可以不用配置,集群环境可以保留默认值

<property>

<name>dfs.namenode.name.dir</name>

<value>/opt/hadoopDir/tmp/namenodeData</value>

</property>

 

<property>

<name>dfs.datanode.data.dir</name>

<value>/opt/hadoopDir/tmp/datanodeData</value>

</property>

 

在自己虚拟机上记着要创建这一串文件夹(mkdir –p /opt/hadoopDir/tmp/ datanodeData

 

⑥ 启动Hadoop

首次启动需要格式化namenode命令如下:

hadoop namenode –format

格式化之后进行启动(必须进入/root/xcl/hadoop-2.6.5/sbin目录启动,如启动过,则先停止stop-dfs.sh)

 

./start-dfs.sh (在sbin目录下用此命令,在其他目录则可以去掉“./”)

 

安装过程需要输入密码,密码是系统密码

 

启动成功后查看进程(用jps命令,必须在sbin目录下)

到这里表示安装成功

 

注:如果没有namenode不成功,可以尝试修改主机名(hostnamectl set-hostname 要改名字)以及修改映射文件(vi hosts

 

 

 

猜你喜欢

转载自blog.csdn.net/qq_42595261/article/details/82432180