cloudera学习--Choosing and Configuring Data Compression - 代码天地

cloudera学习--Choosing and Configuring Data Compression

其他 2019-07-10 17:47:44 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wjandy0211/article/details/90239190

数据压缩和压缩格式会对性能产生重大影响。考虑数据压缩的三个重要位置是MapReduce和Spark作业、存储在HBase中的数据和Impala查询。在很大程度上，每个原则都是相似的。

您必须平衡压缩和解压缩数据所需的处理能力、读写数据所需的磁盘IO和跨网络发送数据所需的网络带宽。这些因素的正确平衡取决于集群和数据的特性以及使用模式。

如果您的数据已经被压缩(例如JPEG格式的图像)，则不建议进行压缩。事实上，生成的文件有时可能比原始文件更大。

Compression Types

Hadoop supports the following compression types and codecs:

gzip - org.apache.hadoop.io.compress.GzipCodec
bzip2 - org.apache.hadoop.io.compress.BZip2Codec
LZO - com.hadoop.compression.lzo.LzopCodec
Snappy - org.apache.hadoop.io.compress.SnappyCodec
Deflate - org.apache.hadoop.io.compress.DeflateCodec

有关选择压缩类型和配置压缩的指南. For details, see Using Apache Avro Data Files with CDH and Using Apache Parquet Data Files with CDH.

GZIP压缩比Snappy或LZO使用更多的CPU资源，但提供了更高的压缩比。对于不经常访问的冷数据，GZip通常是一个很好的选择。对于频繁访问的热数据，Snappy或LZO是更好的选择。

对于某些类型的文件，BZip2也可以产生比GZip更多的压缩，但在压缩和解压缩时需要一定的速度。HBase不支持BZip2压缩。

Snappy通常比LZO表现得更好。有必要运行测试，看看是否检测到显著差异。

对于MapReduce，如果需要可分割的压缩数据，可以分割BZip2和LZO格式。Snappy和GZip块是不可分割的，但是在容器文件格式(如SequenceFile或Avro)中包含Snappy块的文件可以被分割。Snappy打算与容器格式一起使用，比如sequencefile或Avro数据文件，而不是直接在纯文本上使用，例如，后者是不可分割的，不能使用MapReduce并行处理。可裂性与HBase数据无关。

猜你喜欢

转载自blog.csdn.net/wjandy0211/article/details/90239190

cloudera学习--Choosing and Configuring Data Compression

Hue:Configuring Hue to Store Data in MySQL

Progressive Tree-Based Compression of Large-Scale Particle Data | 学习笔记

Programming Assignment 5: Burrows–Wheeler Data Compression

LZW data compression/expansion demonstration program.

Compression

BDI压缩 Base-Delta-Immediate Compression: Practical Data Compression for On-Chip Caches 论文解读

inflate: data stream error (unknown compression method) unable to unpack

et kafka data error:UnsupportedCodecError: Libraries for lz4 compression codec not found

Configuring a queue

OSPF Configuring

深度学习模型压缩与优化加速（Model Compression and Acceleration Overview）

论文学习：Austere Flash Caching with Deduplication and Compression

机器学习_李宏毅笔记简记6【Network Compression】

C#，数值计算——哈夫曼编码与数据压缩技术（Huffman Coding and Compression of Data）源代码

State Compression

Songs Compression

Image Compression

String Compression

Compression techniques

JPEG compression

Spectrum Compression

Perceptual Compression与Semantic Compression的含义

备战Cloudera Data Engineer认证—1

Configuring Liveness and Readiness Probes

Configuring SAP SMTP service

Configuring Quartz with JDBCJobStore in Spring

Configuring Eclipse for Maven plugins

Solr: Configuring Solr

Configuring an Asterisk server

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)