kettle 6.0安装并连接ORACLE,HADOOP CDH5.3.0以及hadoop客户端配置

到官网下载

下载完毕后解压,记得本机要有java环境并配置好

运行spoon.bat在linux下运行spoon.sh,亲测win7/centos6可以用

新建转换,选择输入拖出表输入,输出拖出表输出

双击设置

点击新建,建立一个oracle新连接

配置好后点击测试可以测试一下

显示测试成功

点击获取sql语句,可以查看现有的表

之后shift从表输入拖出箭头到表输出,然后点击播放键,表就可以导出了

hadoop文件传输,新建作业,右键hadoop cluster

配置hadoop的端口号默认是8020,我这里改成了自定义的54310,用户名密码不填写,填写了也没有作用,也就是说填错了也没有关系,这个和ssh的用户密码不一样

点击测试,hdfs没问题,其他环境服务器没有配置,就不管了

如图拖出从start到hadoop copy files 的箭头,然后双击hadoop copy files,设置源和目标

源位本地一个随意文件,目标为hdfs,填写完destination environment后,点击目标文件/目录中的...,可以预览hdfs文件系统结构

配置完后开始执行,如果报错,permission denied 的话,原因是服务器端hdfs配置了权限检查

在hdfs-site.xml中增加或者修改为

就可以了

另hadoop客户端配置

http://blog.csdn.net/j3smile/article/details/7887826

 hadoop远程客户端安装配置
客户端系统:ubuntu12.04

客户端用户名:mjiang

服务器用户名:hadoop

下载hadoop安装包,保证和服务器版本一致(或直接copy服务器的hadoop安装包) 
到 http://mirror.bjtu.edu.cn/apache/hadoop/common/ 下载tar.gz安装包,解压。
tar zxvf hadoopx.x.x.tar.gz
配置
系统配置
修改 ~/.bashrc 文件
添加 export PATH=/path/to/hadoop/homePATH
hadoop配置文件修改
在客户端只需配置集群namenode 和 jobtracker 的相关信息,以及java安装目录。即修改conf目录下文件:
hadoop-env.sh:
export JAVA_HOME=/home/mjiang/hadoop_work/jrockit-jdk1.6.0_29
core-site.xml:
<property>
<name>fs.default.name</name>
<value>hdfs://master:8020<alue>
</property>
mapred-site.xml:
<property>
<name>mapred.job.tracker</name>
<value>master:8021<alue>
</property>
现在hadoop客户端已经配置好,可以运行基本的命令如:
hadoop fs -lsr /
但是由于服务器端还没有设置权限,所以向hdfs系统上传文件等命令还不能运行。 

 公司级应用时权限配置:
这里只进行简单的权限配置,远程用户能正常提交运行作业即可,更加专业、高级的权限配置暂时还用不到,也没有做过多研究。
在解决权限配置问题时,我们对hadoop多用户权限配置的问题,转移成单纯的hdfs文件的用户权限配置问题:

在服务器主机上添加客户端用户以及hadoop默认组名:
sudo  /usr/sbin/groupadd  supergroup
sudo  /usr/sbin/useradd  -e 20130630   -g supergroup -n  -r mjiang 
修改hadoop集群中hdfs文件的组权限使属于supergroup组的所有用户都有读写权限
hadoop fs -chmod 773 / 

猜你喜欢

转载自blog.csdn.net/maenlai0086/article/details/81170916