平台:操作系统(Linux)(支持了Windows,建议还是用linux)
软件需求:
JDK版本参考(http://wiki.apache.org/hadoop/HadoopJavaVersions)
SSH
HADOOP
安装软件:
以 Ubuntu Linux为例:
$ sudo apt-get install ssh $ sudo apt-get install rsync
下载: stable release(稳定版本)
准备Hadoop集群之旅:
解压 Hadoop*.tar
编辑:etc/hadoop/hadoop-env.sh
# set to the root of your Java installation export JAVA_HOME=/usr/java/latest # Assuming your installation directory is /usr/local/hadoop export HADOOP_PREFIX=/usr/local/hadoop
尝试命令: $ bin/hadoop
安装模式:
1.单机模式:(测试) 守护线程没有启动
拷贝etc/hadoop/*.xml 所有xml 文件到input
$ mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+' $ cat output/*
2.伪分布式:(测试)(守护线程启动在一台机器上)
2.1 编辑 etc/hadoop/core-site.xml:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
etc/hadoop/hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>
2.2 安装无密ssh登录:
运行命令 $ ssh localhost
是否可以登录
不能就执行以下命令
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3.3 运行:
1.格式化文件系统
$ bin/hdfs namenode -format
2. 开启NameNode 和 DataNode 守护线程:
$ sbin/start-dfs.sh
默认日志存放路径:$HADOOP_HOME/logs
3. 访问以下路径看NameNode是否启动:
默认NameNode - http://localhost:50070/
4.创建 HDFS 必须目录用于执行 MapReduce 任务:
$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>
5.拷贝输入文件到HDFS
$ bin/hdfs dfs -put etc/hadoop input
6.跑一下Hadoop自带例子
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
7.检查一下输出文件:
$ bin/hdfs dfs -get output output $ cat output/*
或是执行如下命令
$ bin/hdfs dfs -cat output/*
8. 完成后停止守护线程
$ sbin/stop-dfs.sh
3.分布式:(生产)
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html