一、概述
使用DataX进行数据同步时,如果没有开启kerberos,需要配置hdfsUser,不然会报权限错误;错误信息如下
二、错误分析
查看DataX的HdfsWriter插件,发现它底层的实现逻辑是:如果没有开启kerberos,那么会使用hdfsUser用户将数据写入到HDFS中;如果hdfsUser用户名为null,那么会使用同步机器的当前用户将文件写入到HDFS系统中;如果当前用户没有权限写入,那么就会报错。如果集群开启了kerberos,那么使用kerberos协议和keytab用户进行文件读取。
DataX实现逻辑如下:
三、解决方案
1、当hadoop集群开启kerberos时,需要将KerberosConfFilePath、KerberosPrincipal和KerberosKeytabFilePath都配置完整;hdfsUser可以不配置,即便是配置了底层也不会使用
2、当hadoop集群没有开启kerberos,需要配置hdfsUser,因为当进行文件读取时会将该用户加入到用户组,使用该用户进行文件读写操作;FileSystem原理如下