0003-如何在CDH中使用LZO压缩 - 代码天地

0003-如何在CDH中使用LZO压缩

企业开发 2018-11-14 18:00:44 阅读次数: 0

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

1.问题描述

CDH中默认不支持Lzo压缩编码，需要下载额外的Parcel包，才能让Hadoop相关组件如HDFS，Hive，Spark支持Lzo编码。

具体请参考：

https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_mc\_gpl\_extras.html

https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_ig\_install\_gpl\_extras.html#xd\_583c10bfdbd326ba-3ca24a24-13d80143249--7ec6

首先我在没做额外配置的情况下，生成Lzo文件并读取。我们在Hive中创建两张表，test_table和test_table2，test_table是文本文件的表，test_table2是Lzo压缩编码的表。如下：

create external table test_table(s1 string,s2 string)row format delimited fields terminated by '#'location '/lilei/test_table'; insert into test_table values('1','a'),('2','b'); create external table test_table2(s1 string,s2 string)row format delimited fields terminated by '#'location '/lilei/test_table2';

通过beeline访问Hive并执行上面命令：

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

查询test_table中的数据：

0003-如何在CDH中使用LZO压缩

将test_table中的数据插入到test_table2，并设置输出文件为lzo压缩：

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true;set mapreduce.output.fileoutputformat.compress.type=BLOCK; insert overwrite table test_table2 select * from test_table;

在Hive中执行报错如下：

Error:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

0003-如何在CDH中使用LZO压缩

通过Yarn的8088可以发现是因为找不到Lzo压缩编码：

Compression codec com.hadoop.compression.lzo.LzoCodec was not found.

0003-如何在CDH中使用LZO压缩

2.解决办法

通过Cloudera Manager的Parcel页面配置Lzo的Parcel包地址：

0003-如何在CDH中使用LZO压缩

注意：如果集群无法访问公网，需要提前下载好Parcel包并发布到httpd

下载->分配->激活

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

配置HDFS的压缩编码加入Lzo：

com.hadoop.compression.lzo.LzoCodeccom.hadoop.compression.lzo.LzopCodec

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

保存更改，部署客户端配置，重启整个集群。

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

等待重启成功：

0003-如何在CDH中使用LZO压缩

再次插入数据到test_table2，设置为Lzo编码格式：

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true;set mapreduce.output.fileoutputformat.compress.type=BLOCK; insert overwrite table test_table2 select * from test_table;

插入成功：

0003-如何在CDH中使用LZO压缩

2.1 Hive验证

首先确认test_table2中的文件为Lzo格式：

0003-如何在CDH中使用LZO压缩

在Hive的beeline中进行测试：

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

Hive基于Lzo压缩文件运行正常。

2.2 Spark SQL验证

var textFile=sc.textFile("hdfs://ip-172-31-8-141:8020/lilei/test_table2/000000_0.lzo_deflate") textFile.count() sqlContext.sql("select * from test_table2")

0003-如何在CDH中使用LZO压缩

SparkSQL基于Lzo压缩文件运行正常。

醉酒鞭名马，少年多浮夸！岭南浣溪沙，呕吐酒肆下！挚友不肯放，数据玩的花！

0003-如何在CDH中使用LZO压缩

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

猜你喜欢

转载自blog.51cto.com/14049791/2316621

0003-如何在CDH中使用LZO压缩

如何在CDH中使用Phoenix

CDH启动lzo压缩

Hive中使用LZO压缩的方式

hadoop-2.6.0-cdh-5.15.1 使用lzo压缩安装及测试

cdh配置lzo压缩格式

0003-选择语句

cdh5.13 配置LZO压缩模式

CDH5.16.1配置Lzo压缩

hadoop使用lzo压缩

在Pig中使用Lzo

hadoop使用lzo压缩文件笔记 (CDH3u1)

0003-【linux系统】-虚拟机如何的快照与克隆备份

0434-如何在CDH6.0中使用纠删码

0517-如何在CDH5中使用单用户模式

0435-如何在CDH6.0中使用纠删码

Hadoop使用lzo压缩输出

CDH6.3.2 在线安装 hadoop Lzo压缩

lzo压缩

如何在 Linux 中使用 unzip 解压缩文件

Hadoop集群上使用Lzo压缩

hadoop之使用LZO压缩并支持分片

对于CDH LZO的安装

「LeetCode」0003- Longest Substring Without Repeating Characters（C++）

如何在CDH中安装和使用StreamSets

如何在 Linux 使用文件压缩

kotlin如何在Fragment中使用getFragementManager()

如何在svn系统中使用git

如何在vue 中使用 sass

如何在Matlab中使用Plotly绘图

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)