初学Hadoop(二)

安装Hadoop先决条件:

平台：操作系统（Linux）（支持了Windows，建议还是用linux）

软件需求：

JDK版本参考(http://wiki.apache.org/hadoop/HadoopJavaVersions)

SSH

HADOOP

安装软件：

以 Ubuntu Linux为例：

$ sudo apt-get install ssh $ sudo apt-get install rsync

下载： stable release（稳定版本）

准备Hadoop集群之旅：

解压 Hadoop*.tar

扫描二维码关注公众号，回复： 554294 查看本文章

编辑：etc/hadoop/hadoop-env.sh

# set to the root of your Java installation export JAVA_HOME=/usr/java/latest # Assuming your installation directory is /usr/local/hadoop export HADOOP_PREFIX=/usr/local/hadoop

尝试命令： $ bin/hadoop

安装模式：

1.单机模式：（测试）守护线程没有启动
拷贝etc/hadoop/*.xml 所有xml 文件到input

$ mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+' $ cat output/*

2.伪分布式：（测试）（守护线程启动在一台机器上）

2.1 编辑 etc/hadoop/core-site.xml:

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>

etc/hadoop/hdfs-site.xml:

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>

2.2 安装无密ssh登录：

运行命令 $ ssh localhost

是否可以登录

不能就执行以下命令

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3.3 运行：

1.格式化文件系统

$ bin/hdfs namenode -format

2. 开启NameNode 和 DataNode 守护线程:

$ sbin/start-dfs.sh

默认日志存放路径：$HADOOP_HOME/logs

3. 访问以下路径看NameNode是否启动:

默认NameNode - http://localhost:50070/

4.创建 HDFS 必须目录用于执行 MapReduce 任务:

$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>

5.拷贝输入文件到HDFS

$ bin/hdfs dfs -put etc/hadoop input

6.跑一下Hadoop自带例子

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'

7.检查一下输出文件:

$ bin/hdfs dfs -get output output $ cat output/*

或是执行如下命令

$ bin/hdfs dfs -cat output/*

8. 完成后停止守护线程

$ sbin/stop-dfs.sh

3.分布式：（生产）

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html

猜你喜欢