首先安装JDK和Eclipse,安装JDK的教程网上很多,Eclipse下在下来解压就可以。值的一提的是,JDK和Eclipse的版本需要对应起来。这里提供一个JDK安装链接:https://jingyan.baidu.com/article/6dad5075d1dc40a123e36ea3.html
JDK和Eclipse是基本的Java开发环境,为了方便项目构建和依赖管理,推荐安装Maven,这样就不用导入很多的jar包。Eclipse自带Maven,最好还是自己再安装一个。Maven的安装并集成到Eclipse的教程:https://jingyan.baidu.com/article/6b1823098d4499ba58e159e1.html
最关键的一步就是基于Eclipse搭建Hadoop的开发环境了。
(1)下载Hadoop-2.6.3安装包解压到磁盘,例如D:\hadoop-2.6.3
(2)安装eclipse的hadoop插件。这里有一个eclipse的Hadoop插件的云盘链接:https://pan.baidu.com/s/1fIM-8B9mBFnc9UwZa_UZOQ 密码:egtz;下载下来,拷贝到eclipse目录下的plugins目录下。
(3)启动eclipse,点开Windows->preferences,点击Hadoop Map/Reduce选项,弹出如下对话框,设置hadoop安装目录,即步骤(1)解压的目录。设置好后点击OK。
(4)点开Windows->ShowView->Other…,弹出如下对话框。
在其中选中Map/ReduceLocations,点击OK后将成功添加Map/ReduceLocations窗口,如下图:
Location已经有了一个Hadoop大象图标,这是因为我的环境是已经安装好的。刚开始安装没有。
点击右侧的小象图标创建New Hadoop Location…,如下图,红色矩形框标记的部分。
弹出如下对话框:
红框中的内容是集群IP和端口。填写完成后点击Finish,出现如下结果:
点开Windows->Perspective->Open Perspective->Other…,弹出如下对话框。
选择Map/Reduce,在Project Explorer中添加DFSLocations,如下图:
新建工程
点开File->New->Project,为了不用导入jar包,这里创建Maven工程。
创建Maven的工程参考网上的教程:
https://www.cnblogs.com/zlslch/p/6025694.html
最后找一个WordCount程序跑一下,看看环境有没有搭好。如果成功了,就可以编写其他程序了。可能会出现问题,可能是Hadoop动态库的问题,参考这个博客解决。https://blog.csdn.net/u014728303/article/details/59058248
MapReduce任务处理流程:https://blog.csdn.net/twj0823/article/details/84403190
MapReduce的输入:https://blog.csdn.net/twj0823/article/details/84403578
MapReduce的输出:https://blog.csdn.net/twj0823/article/details/84553070
全局参数、数据文件的传递与引用:https://blog.csdn.net/twj0823/article/details/84445457