hadoop 学习笔记 1

最近项目时间稍微宽裕,于是开始了对hadoop这个总是在耳边萦绕的工具进行了初步学习。以下是学习体会和要点记录。
1)HDFS,是Hadoop的分布式文件系统,一个 HDFS 集群是由一个 NameNode 和若干个 DataNode 组成的。其中 NameNode 作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作;集群中的 DataNode 管理存储的数据。
2)MapReduce,是hadoop处理分布式数据的一个一种框架,也是一种思想。Map就是分布,reduce就是计算,MapReduce在 HDFS 的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了 Hadoop 分布式集群的主要任务。

学习hadoop重要的一环是环境的搭建,另外一环是MapReduce思想的应用。
环境搭建几个要点:
1)为每台机器创建hadoop的用户。
2)修改主机名,最好能够标志出master和slave的区别。
3)配置SSH无密码登录,首先在master上生成一个密钥对,包括一个公钥和一个私钥,并将公钥复制到所有的slave上。
然后当master通过SSH连接slave时, slave就会生成一个随机数并用master的公钥对随机数进行加密,并发送给master。
最后master收到加密数之后再用私钥解密,并将解密数回传给slave, slave确认解密数无误之后就允许master不输入密码进行连接了.
4)根据集群情况,对hadoop的配置文件进行修改。
5)格式化HDFS。
6)启动相关服务并测试。

Hadoop入门很容易,特别是对于JAVA程序员,用eclipse插件进行开发,可以迅速搭建一个开发环境并开发出简单的JAVA应用。
1)安装eclipse插件:把我们的"hadoop-eclipse-plugin-1.0.0.jar"放到Eclipse的目录的"plugins"中,然后重新Eclipse即可生效。
2)选择"Window"菜单下的"Preference",然后弹出一个窗体,在窗体的左侧,有一列选项,里面会多出"Hadoop Map/Reduce"选项,点击此选项,选择Hadoop的安装目录
3)建立与Hadoop集群的连接
4)拷贝模版程序wordcount类,如果一切正常,就可以运行了。

猜你喜欢

转载自seaskyboy.iteye.com/blog/1969623