hadoop的Text中文编码 - 代码天地

hadoop的Text中文编码

编程语言 2018-05-12 13:55:16 阅读次数: 0

在TextInputFormat中调用了LineRecordReader，接着又调用了LineReader，方法readDefaultLine方法中直接使用的Text直接加入的从文件中读取的bytes，其中并没有转换。

如果原始的text文件如果是中文的话，再取出来的时候就不能使用Bytes.toString(final byte [] b)来转换了，因为这个方法里面使用的utf8来解码的。需要自己调用new String(byte[], "gbk")来进行处理了。

看到了TestTextNonUTF8，Text中是以byte[]存储的。所以放进去bytes，再取出来bytes后，还是可以用原来的编码转回来的。

但是若使用Text的setString方法，会使用UTF8来转换成byte[]么?

猜你喜欢

转载自jianzong2000.iteye.com/blog/1936393

hadoop的Text中文编码

Sublime Text 2/3如何支持中文GBK编码

Sublime Text3 使用GBK编码中文乱码问题

Sublime Text 3打开gbk编码的文件中文乱码的问题

Sublime Text 3中编译运行java 控制台中文GBK编码乱码

解决Sublime Text 3在GB2312编码下的中文乱码问题

Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

中文编码

Sublime Text中文乱码

Sublime Text 设置中文

URL中文编码与文本中文编码的关系

Sublime Text的安装及中文设置

中文编码的简要历程

python中文编码

boost 中文编码转换

Python 中文编码

tomcat配置编码中文

中文短信编码（一）

中文短信编码（二）

Tomcat中文编码问题

weblogic 中文编码

中文域名punycode编码

infobright的中文编码问题

# python 中文编码问题

qt-中文编码

Python - 中文编码问题

Mysql中文编码问题

中文编码笔记

xshell中文编码设置

【Ruby】中文编码

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

周排行

010-题目：利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。

接口测试-工作心得记录八（使用locust库书写接口并发）

物理分页和逻辑分页

Hive建表语句详解--CREATE TABLE

爬虫学习----学习get和post请求

PDF生成类库

POJ 2139

前端路由基本原理

I/O多路转接之epoll

.NET开源项目 QuarkDoc 一款自带极简主义属性的文档管理系统

每日归档

更多

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)