hive insert 中文数据乱码,如下:
insert into dt.test_test PARTITION (ymd = '2018-12-03') values("name#certno","张三#532901199103131815","FINANCE_ORGANIZATION","AA00002","asdfasdf","01","LOAN_GRAY","2018-10-23 13:00:00.000");
是不是很烦心呢,可以采用下面的方法避免插入的中文为乱码。
一、创建表
Hive本身支持的文件格式只有:Text File,Sequence File。如果文件数据是纯文本,可以使用 [STORED AS TEXTFILE]。如果数据需要压缩,使用 [STORED AS SEQUENCE] 。通常情况,只要不需要保存序列化的对象,我们默认采用[STORED AS TEXTFILE]。本次我们使用STORED AS TEXTFILE建表,方便导出后再本地新增、修改、删除数据。
hive -e "CREATE EXTERNAL TABLE dt.test_test (
dim string,
reason string ,
deci string ,
type string ,
reason string
)
PARTITIONED BY (ymd string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n';"
二、导出表数据
hive -e "select * from dt.test_test" > /tmp/test/test.txt
编辑test.txt,新增、修改、删除数据
三、使用load data导入hdfs文件管理系统
load data local inpath '/tmp/test/test.txt' overwrite into table dt.test_test PARTITION (ymd="2018-12-19");
查询dt.test_test,乱码完美解决,可以开心造数据了。