eclipse连接集群

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/JiaoKun_/article/details/83032075

hadoop的历史

说道hadoop的历史,就要提到Google公布的GFS、MapReduce和BigTable三篇技术论文,它们被称为三驾马车。然后一位叫Doug Cutting的大牛对其做了主要的开源实现。再后来,Apache基金会整合Doug Cutting和一众IT公司的贡献成果,开发并推出了Hadoop生态系统。

关于配置集群客户端

  1. 首先并不建议在集群内操作,原因如下:
    如果每次文件上传都用一个DN作为客户端,就会导致这个节点的磁盘、IO等负载高于其他节点,这样久而久之就会导致这个节点的磁盘和网络性能低于其他节点,因而导致数据的倾斜问题。所以一般建议在集群外操作。
  2. 配置客户端步骤
    • )找一台能够与集群通信的服务器,将配置好的安装包完全拷贝到这台新服务器上;
    • )在/etc/profile内配置环境变量,方便集群操作
    • )在客户端上正常操作集群

eclipse操作HDFS

配置环境

  1. 在eclipse的安装目录内,找到dropins,在其其中新建目录plugins;将hadoop-eclipse-plugin-2.6.0.jar包拷贝于内。

  2. 重启eclipse
    在这里插入图片描述

  3. 如上图,按照步骤操作,然后在第三处下右键,打开New Hadoop location(如下图)
    在这里插入图片描述

  4. 配置连接信息(注意:填写host前,需要配置本地hosts文件,写入IP和服务器主机别名;右边的host和左边的一致)
    在这里插入图片描述

Java API操作HDFS

  1. 导入依赖jar包
    进入安装包的/share/hadoop目录下,将common、hdfs、tools目录下及其子目录lib下的jar包导入eclipse项目。
  2. 操作hdfs

猜你喜欢

转载自blog.csdn.net/JiaoKun_/article/details/83032075