Hadoop的基础配置

1. 下载hadoop安装包

可以到这个网站上下载http://www.apache.org/dist//hadoop/core/如果下载不下来自己到网上找找很多的。选一个版本下载。我用的是hadoop-0.20.2。

2.解压到一个目录下。随便选择按个目录。建议直接选择一个根目录。随后进行配置。这里配置的是伪分布式了。需要配置四个文件。都在conf目录下。分别为：hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml。下面逐一说明：

3.hadoop-env.sh

这个文件中主要配置JAVA_HOME路径。需要注意的是：1.jkd是1.6以上版本。2.路径应该是linux风格的。打开后将export前面的#注释符去掉，路径为/cygdrive/你的jdk路径。如果路径中有空格需要将路径用‘’括起来。设置后如下图：

4. core-site.xml

配置属性很多。到也可以简化自己设置几个属性就可以了。这里我们直接复制src/core下的core-default.xml到conf下并改名为core-site.xml替换原来的。修改下列属性如下：<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

<name>hadoop.tmp.dir</name>

<value>/hadoop/tmp</value>

<description>A base for other temporary directories.</description>

</property>

设置临时的文件hadoop默认中有了但重启后会被删除所以还得需要格式化所以手动设定一个。避免格式化。

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

5. hdfs-site.xml

这个也同样到src/hdfs下把hdfs-default.xml复制到conf下改名替换。修改下列属性：

<value>/hadoop/name</value>

</property>

DFS名节点存放位置

<value>/hadoop/data</value>

</property>

DFS数据节点存放位置

<name>dfs.replication</name>

</property>

存放副本数，这是为了安全考虑的在集群中要多放几个。咱们是伪分布式的就一个可以了。

6. mapred-site.xml

这个也同样到src/mapred中把mapred-default.xml复制到conf中改名替换。修改下列属性：

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

MapReduce 的jog tracker运行在所在主机及端口号。

<name>mapred.local.dir</name>

<value>/hadoop/temp</value>

</property>

MapReduce的运行中间数据文件的存放路径

7. 这就可以了。设置就结束了。下面运行试一试。

使用cygwin进入到hadoop安装路径下的bin文件夹中。查看显示如下：

首先格式化：./hadoop namenode –format 如果让选择Y/N 选择Y。如下图：

其次运行：./start-sh.all 如下图则成功了。总共会启动五个节点。

最后：运行一下自带的wordcount例子。

1.先在本地文件建立一个文件夹(最好建在hadoop的安装文件在同一个目录下)如testin随后在里面建几个文件txt或java的随意。在里面输入以下英文单字。如file1.java 内容Hello world ！file2.java 内容：I love you ！

2.在cygwin中将一个hadoop hdfs上的目录如testin。命令如下：

./hadoop dfs –mkdir testin

3.将本地的两个文件上传到dfs上去。

./hadoop dfs –put /testin/*.java testin

此时运行./hadoop dfs –ls testin 就会就会发现已有了这两个文件了。

2、3步执行如下图：

4.执行

./hadoop jar ./../hadoop-0.20.2-examples.jar wordcount testin testout

如下图则成功了

5.查看结果

./hadoop dfs -ls testout 会发现下面有两个文件一个是日志一个是结果文件。

./hadoop dfs -cat testout/part-r-00000 查看统计单字的结果文件

执行如下图：

至此hadoop就安装配置都已结束并经过测试已经可以正常运行了。

猜你喜欢