【Hadoop】- Gzip , BZip2 , Lzo Snappy 四种方式的优缺点和使用场景 - 代码天地

【Hadoop】- Gzip , BZip2 , Lzo Snappy 四种方式的优缺点和使用场景

其他 2019-10-27 14:22:32 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_40040107/article/details/87885210

Gzip
优点

压缩解压速度快 , 压缩率高 , hadoop本身支持
处理压缩文件时方便 , 和处理文本一样
大部分linux 系统自带 Gzip 命令 , 使用方便

缺点

不支持切片

使用场景

文件压缩后在130M以内 (一个块大小) , 都可以使用 GZip 压缩(因为Gzip唯一的缺点是不能切片)
总结 : 不需要切片的情况下可以使用

BZip2
优点

压缩率高(高于Gzip)
可以切片
hadoop自带使用方便

缺点

压缩解压速度超级慢

使用场景

不要求压缩速率 ,但是对压缩率有要求的情况下比如备份历史记录 , 备份文件
或者输出的文件较大 , 处理后的数据需要减少磁盘存储并且以后使用数据的情况较少 (解压 / 压缩的情况较少)
对于单个文件较大 ,又想压缩减少磁盘空间 , 并且兼容之前的应用程序的情况
总结 : 对于压缩解压速度没有要求的情况下

Lzo
优点

压缩解压速度比较快 , 压缩率也可以
支持切片是hadoop 比较流行的压缩格式
可以在linux 下安装 lzo命令使用方便

缺点

压缩率比Gzip低一些
hadoop 本身不支持, 需要自己安装
使用Lzo 格式的文件时需要做一些特殊处理(为了支持 Split 需要建立索引 , 还需要家将 InputFormat 指定为Lzo 格式 [特殊]

使用场景

压缩以后还大于 200M 的文件 , 且文件越大 Lzo 的优势越明显
(原因很简单 , 四种压缩方式只有BZip2 , Lzo支持切片 , 然后 BZip2 你懂的 , 速度贼慢 , 只能用于特定的场景, 所以 Lzo 是比较经常用的 )
总结 : 压缩后文件还是比较大需要切片的情况下推荐使用

Snappy
优点

高压缩解压速度 , 压缩率还可以

缺点

不能切片
压缩率比Gzip小
hadoop本身不支持需要安装

使用场景

当Mapeduce的Map阶段输出的数据比较大的时候 , 作为Map到Reduce的中间数据的压缩格式
作为一个MapReduce作业的输出和另一个MapReduce的输入
总结 : 因为压缩率不怎么样还不能切片 , 所以在一般的作为输入文件压缩时可以用 GZip 和 Lzo 都比Snappy效率要高但是它的压缩解压速度比较快所以比较适合用于 Map -> Reduce 作为中间数据的压缩格式

总结 :

压缩速率 : Snappy > GZIp > Lzo >BZip2

支持切片 : BZIp2 LZo

压缩率 : BZip2 > GZip > Lzo > Snappy

特殊 : Lzo Snappy hadoop 本身不支持 , 需要自行安装并且 Lzo 需要建立索引

猜你喜欢

转载自blog.csdn.net/weixin_40040107/article/details/87885210

【Hadoop】- Gzip , BZip2 , Lzo Snappy 四种方式的优缺点和使用场景

Hadoop 压缩格式 gzip/snappy/lzo/bzip2 比较

Gzip,BZip2,Lzo,Snappy总结

hadoop 压缩 gzip biz2 lzo snappy

GZIP、LZO、Zippy/Snappy压缩算法应用场景小结

tar、gzip & gunzip、zip & unzip、bzip2 使用详解

Hadoop复习（四） --- 远程调试，Maven集成Ant，centos上安装snappy和lzo，SequenceFile，MapFile，combine

使用Python和C#对比跨语言压缩算法库LZ4, Snappy, LZO, gzip, glib

gzip bzip2 区别

Linux使用gzip和bzip2进行文件的压缩与解压缩

Ubuntu使用gzip与bzip2与rar和tar压缩解压

bzip2使用

5 种常见的 Linux 打包类型：tar、gzip、bzip2、zip 、 7z

linux中gzip、bzip2、zip、unzip、tar使用介绍

linux 下文件压缩与解压：gzip,zip,bzip2 文件压缩和归档( 转)

linux下文件和目录的压缩和解压（gzip、bzip2、tar）

linux tar gzip bzip2 compress

Linux -gzip、bzip2、xz

简单了解gzip、bzip2、xz

gzip bzip2 zip及unzip 详解

文档压缩 | gzip、bzip2、xz

hadoop使用lzo压缩

hadoop lzo使用测试

Hadoop LZO 的使用

Linux常用的压缩和解压命令gzip,gunzip,tar,zip, unzip和bzip2,bunzip2

Linux中统计，检索和过滤文件内容的命令以及压缩、归档命令(wc,grep,gzip,bzip2,

Linux系统常见的压缩命令和打包命令(gzip,zcat,bzip2,bzcat,xz,xzcat,zip,unzip,tar)

Hadoop使用lzo压缩输出

hadoop和hbase lzo压缩

Hadoop配置lzo和lzop

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)