hadoop 学习笔记（伪分布式）

参考网络众多资料，结合自己的练习，记录了hadoop hdfs应用的一些内容，希望对初学hadoop的同学有所帮助。

所需软件：

Jdk 1.6.*

Hadoop: hadoop-1.0.3.tar.gz

环境配置

1. 安装linux centos 5.X系统

a. 添加用户组：groupadd ghadoop

b. 添加用户 useradd –g ghadoop hduser

本文未加说明都是以hduser用户进行操作

2. 安装开启ssh服务(root用户)。

系统默认安装带ssh服务的,未安装请自行安装，方法略。

启动服务：service sshd start

3. 建立ssh 无密码登录(root用户)

$ ssh-keygen -t dsa

直接回车三次，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。

这两个是成对出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys文件)：

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys。

完成后可以实现无密码登录本机：$ ssh localhost。

4.关闭防火墙 (root用户)

service iptables stop

5. 安装jdk 1.6 (root用户)

6. 安装后，添加如下语句到/etc/profile 中(root用户)：

export JAVA_HOME=/user/java/jdk1.6

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

7安装hadoop

hadoop-1.0.3.tar.gz 解压到/home/hduser下

一、 Hadoop伪分布配置

1. 在conf/hadoop-env.sh文件中增加：export JAVA_HOME=/user/java/jdk1.6

2. 在conf/core-site.xml文件中增加如下内容：

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<!—hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中-->

<name>hadoop.tmp.dir</name>

<value>/home/hduser/tmp</value>

</property>

3. 在conf/hdfs-site.xml中增加如下内容：

<name>dfs.replication</name>

</property>

<!-- dfs.data.dir - 这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同，因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话，会使工作变得简单一些。默认的情况下，它的值hadoop.tmp.dir, 这个路径只能用于测试的目的，因为，它很可能会丢失掉一些数据。所以，这个值最好还是被覆盖。

dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效，DataNode并不需要使用到它。上面对于/temp类型的警告，同样也适用于这里。在实际应用中，它最好被覆盖掉。-->

<value>/home/hduser/name</value>

</property>

<value>/home/hduser/data</value>

</property>

<!—解决：org.apache.hadoop.security.AccessControlException:Permission denied:user=XXXX,access=WRITE,inode="tmp":root:supergroup:rwxr-xr-x 。

因为Eclipse使用hadoop插件提交作业时，会默认以 DrWho 身份去将作业写入hdfs文件系统中，对应的也就是 HDFS 上的/home/hduser , 由于 DrWho 用户对hadoop目录并没有写入权限，所以导致异常的发生。解决方法为：放开 hadoop 目录的权限，命令如下：$ hadoop fs -chmod 777 /home/hduser -->

<name>dfs.permissions</name>

<value>false</value>

If "true", enable permission checking in HDFS. If "false", permission checking is turned off, but all other behavior is unchanged. Switching from one parameter value to the other does not change the mode, owner or group of files or directories

</description>

</property>

4. 在conf/mapred-site.xml中增加如下内容：

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

二、操作命令

1. 格式化工作空间

进入bin目录，运行 ./hadoop namenode –format

2. 启动hdfs

进入hadoop目录,在bin/下面有很多启动脚本，可以根据自己的需要来启动。

* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack

* stop-all.sh 停止所有的Hadoop

* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack

* stop-mapred.sh 停止Map/Reduce守护

* start-dfs.sh 启动Hadoop DFS守护Namenode和Datanode

* stop-dfs.sh 停止DFS守护

三、HDFS文件操作

Hadoop使用的是HDFS，能够实现的功能和我们使用的磁盘系统类似。并且支持通配符，如*。

1. 查看文件列表

查看hdfs中/user/admin/hdfs目录下的文件。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -ls /user/admin/hdfs

查看hdfs中/user/admin/hdfs目录下的所有文件（包括子目录下的文件）。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -lsr /user/admin/hdfs

2. 创建文件目录

查看hdfs中/user/admin/hdfs目录下再新建一个叫做newDir的新目录。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -mkdir /user/admin/hdfs/newDir

3. 删除文件

删除hdfs中/user/admin/hdfs目录下一个名叫needDelete的文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -rm /user/admin/hdfs/needDelete

删除hdfs中/user/admin/hdfs目录以及该目录下的所有文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -rmr /user/admin/hdfs

4. 上传文件

上传一个本机/home/admin/newFile的文件到hdfs中/user/admin/hdfs目录下

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs –put /home/admin/newFile /user/admin/hdfs/

5. 下载文件

下载hdfs中/user/admin/hdfs目录下的newFile文件到本机/home/admin/newFile中

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs –get /user/admin/hdfs/newFile /home/admin/newFile

6. 查看文件内容

查看hdfs中/user/admin/hdfs目录下的newFile文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs –cat /home/admin/newFile

hadoop 学习笔记（伪分布式）

猜你喜欢