MapReduce中文乱码

其他 2018-12-11 11:01:03 阅读次数: 0

问题：

mapreduce输出乱码

原因：

再用Hadoop处理数据的时候，发现输出的时候，总是会出现乱码，这是因为Hadoop在设计编码的时候，是写死的。默认是UTF-8，所以当你处理的文件编码格式不是为UTF-8的时候，比如为GBK格式，那么就会输出的时候就会出现乱码。

问题解决：

解决问题非常简单，就是转码，确定数据都是以UTF-8的编码格式在运行。

在map端从文件中读取一行数据的时候，把他转为UTF-8格式。例如：

我的文件是GBK格式的则：

// 把数据以GBK的格式读过来
String line = new String(value.getBytes(),0,value.getLength(),“GBK”);

注意：我的value是Text类型的。

再次运行，查看结果。乱码问题解决。

猜你喜欢

转载自blog.csdn.net/qq_33286695/article/details/84590748

MapReduce中文乱码

用Python脚本解决Linux上MapReduce输出结果中的中文乱码问题

mapreduce 输出乱码

中文乱码

mapreduce 中文版

SpringMVC中文乱码 controller乱码

SecureCRT乱码,SecureFX中文乱码

scrapy extract() 中文乱码乱码

MapReduce 中文版论文

Google MapReduce 中文版

IntelliJ 中文乱码中文渲染

zabbix修改中文乱码

MySQL中文乱码

requests 中文乱码

SecureCRT中文显示乱码

oracle 中文乱码问题

maven打包中文乱码

当git遇上中文乱码

DbVisualizer 中文乱码

js处理中文乱码

中文注释为乱码

echarts的中文乱码问题

$.post中文乱码

python输出中文乱码

SecureFX中文乱码

IDEA 中文乱码

get中文乱码/post

mysql中文乱码设置

pyftpdlib中文件乱码

mysql中文乱码的问题

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)