hadoop入门学习

最近学习了下hadoop的环境变量的安装
所用版本为hadoop-0.22.0
来看步骤
Linux:ubuntu11.04
VMware Linux的安装就不说了
1.安装软件
 sudo apt-get install ssh 
 sudo apt-get install rsync

2.jdk下载安装(这里也可以用ubuntu自己所带的jdk:/usr/lib/jvm/java-6-openjdk)
3.伪分布式模式安装(由于只有一台机器,所以只能配置伪分布模式了,即hadoop守护进程运行在本地机器上,模拟一个小规模的集群。)
core-site.xml 的配置
<?xml version="1.0"?>  
<!-- core-site.xml -->  
<configuration>  
  <property>  
    <name>fs.default.name</name>  
    <value>hdfs://localhost/</value>  
</property>  
</configuration>  

hdfs-site.xml的配置
<?xml version="1.0"?>  
<!-- hdfs-site.xml -->  
<configuration>  
 <property>  
  <name>dfs.replication</name>  
  <value>1</value>  
 </property>  
</configuration> 

mapred-site.xml的配置
<?xml version="1.0"?>  
<!-- mapred-site.xml -->  
<configuration>  
 <property>  
  <name>mapred.job.tracker</name>  
  <value>localhost:8021</value>  
</property>  
</configuration>  

  4.免密码ssh设置
现在确认能否不输入口令就用ssh登录localhost:
$ ssh localhost

如果不输入口令就无法用ssh登陆localhost,执行下面的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
5.执行
格式化一个新的分布式文件系统:
$ bin/hadoop namenode -format

5.启动和终止守护进程
为了启动HDFS和MapReduce守护进程,需要如下指令:
[plain] view plaincopy
start-dfs.sh  
start-mapred.sh  

启动start-all.sh时出现如下错误:
localhost: Error: JAVA_HOME is not set.
在hadoop-0.2/conf/文件夹里有个hadoop-env.sh的文件,它的作用是配置与hadoop运行环境相关的变量,添加如下变量
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk  

jobtracker在
[javascript] view plaincopy
http://localhost:50030 
namenode 在
[javascript] view plaincopy
http://localhost:50070 
终止守护进程也很容易,只需命令
stop-dfs.sh  

猜你喜欢

转载自bsand.iteye.com/blog/1629694