sqoop常见问题处理

版权声明:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 https://blog.csdn.net/wx740851326/article/details/84587612

事务

处理 由于线程的并发性,一个导入操作可能并不是原子性的。
会一次statement插入100条数据,然后每100 个statement提交一次,所以一次就会提交10000条数据。
如果tasks失败了(由于网络问题或者其它的问题), 这些tasks会尝试从它们开始导入数据的地方重新开始,会插入重复的记录。
这次写数据的时候,Sqoop不 提防这种潜在的问题。
Sqoop提供的一个解决办法就是使用中间表,参数为: --staging-table --clear-staging-table

字段 名称问题

sqoop 从 mysql 导入 hive 的字段名称问题 hive 中有些关键字限制,
因此有些字段名称在 mysql 中可用,但是到了 hive 就不 行。
部分不能在 hive 中使用的字段名称 order;sort;reduce;cast;directory

参数

处理 部分字段含有特殊字符时需要添加双引号,单双引号都有时,一般采用双引 号套单引号。

涉及的源表和目标表不一致,包括字段名称不一致,字段的数目不一致,数据的分隔符未指定等。查看mr任务的报错再判断是否是字段的问题。

猜你喜欢

转载自blog.csdn.net/wx740851326/article/details/84587612
今日推荐