Hadoop-MapReduce-数据压缩

    压缩技术能够有效减少底层存储系统(HDFS)读写的字节数,提高了网络带宽和磁盘空间的效率,减少磁盘I/O,提高MapReduce运行速度。在运行MapReduce程序时,I/O操作、网络数据传输、Shuffle、Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此使用数据压缩显得非常重要。
    采用压缩技术减少了磁盘I/O,但同时增加了CPU运算负担。所以,压缩特性运用得当能提高性能,但运用不当也可能降低性能。
    压缩基本原则:运算密集型的Job少用压缩,I/O密集型的Job多用压缩

MapReduce支持的压缩编码

压缩格式 hadoop是否自带 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改
DEFLATE 是,直接使用 DEFLATE .deflate 和文本处理一样,不需要修改
Gzip 是,直接使用 DEFLATE .gz 和文本处理一样,不需要修改
bzip2 是,直接使用 bzip2 .bz2 和文本处理一样,不需要修改
LZO 否,需要安装 LZO .lzo 需要建索引,还需要指定输入格式
Snappy 否,需要安装 Snappy .snappy 和文本处理一样,不需要修改
压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip2 org.apache.hadoop.io.compress.BZip2Codec
LZO com.hadoop.compression.lzo.LzopCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec

Gzip压缩

    优点:压缩率比较高,而且压缩/解压缩速度也比较快。Hadoop本身支持,在应用中处理Gzip格式的文件就和直接处理文本一样。大多数Linux系统都自带Gzip命令,使用方便。
    缺点:不支持切片
    应用场景:当每个文件压缩之后在130M以内(1个块大小内),都可以考虑用Gzip压缩格式。例如,将一天或者一小时的日志压缩成一个Gzip文件。

bzip2压缩

    优点:支持切片,具有很高的压缩率,比Gzip压缩率高。Hadoop本身自带,使用方便。
    缺点:压缩/解压缩速度慢
    应用场景:适合对速度要求不高,但需要较高的压缩率的时候。或者输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间,并且以后数据用的比较少的时候。或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持切片,而且兼容之前的应用程序的时候。

Lzo压缩

    优点:压缩/解压缩速度比较快,合理的压缩率。支持切片。是Hadoop中最流行的压缩格式。可以在linux系统下安装lzop命令,使用方便。
    缺点:压缩率比Gzip低。Hadoop本身不支持,需要安装。在应用中对Lzo格式的文件需要做一些特殊处理(为了支持切片需要建索引,还需要指定InputFormat为Lzo格式)
    应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,Lzo优点越明显。

Snappy压缩

    优点:高速压缩速度和合理的压缩率。
    缺点:不支持切片,压缩率比Gzip低。Hadoop本身不支持,需要安装。
    应用场景:当MapReduce作业的Map输出的数据比较大的时候,作为Map到Reduce的中间数据的压缩格式。或者作为一个MapReduce作业的输出和另一个MapReduce作业的输入。
在这里插入图片描述

压缩参数配置

参数 默认值 阶段 建议
io.compression.codecs
(在core-site.xml中配置)
org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec 输入压缩 Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress
(在mapred-site.xml中配置)
false mapper输出 这个参数设为true启用压缩
mapreduce.map.output.compress.codec
(在mapred-site.xml中配置)
org.apache.hadoop.io.compress.DefaultCodec mapper输出 企业多使用LZO或Snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress
(在mapred-site.xml中配置)
false reducer输出 这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec
(在mapred-site.xml中配置)
org.apache.hadoop.io.compress. DefaultCodec reducer输出 使用标准工具或者编解码器,如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type
(在mapred-site.xml中配置)
RECORD reducer输出 SequenceFile输出使用的压缩类型:NONE和BLOCK

压缩 / 解压缩

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import org.apache.hadoop.io.compress.CompressionInputStream;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;

public class TestCompress {
    
    
	public static void main(String[] args) throws Exception {
    
    
		compress("e:/hello.txt","org.apache.hadoop.io.compress.BZip2Codec");
 		decompress("e:/hello.txt.bz2");
	}

	private static void compress(String filename, String method) throws Exception {
    
    
		// 1.获取输入流
		FileInputStream fis = new FileInputStream(new File(filename));
		Class codecClass = Class.forName(method);
		CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, new Configuration());
		// 2.获取输出流
		FileOutputStream fos = new FileOutputStream(new File(filename + codec.getDefaultExtension()));
		CompressionOutputStream cos = codec.createOutputStream(fos);
		// 3.流的对拷
		IOUtils.copyBytes(fis, cos, 1024*1024*5, false);
		// (4)关闭资源
		cos.close();
		fos.close();
		fis.close();
	}

	private static void decompress(String filename) throws FileNotFoundException, IOException {
    
    
		// 1.校验是否能解压缩
		CompressionCodecFactory factory = new CompressionCodecFactory(new Configuration());
		CompressionCodec codec = factory.getCodec(new Path(filename));
		if (codec == null) {
    
    
			System.out.println("cannot find codec for file " + filename);
			return;
		}
		// 2.获取输入流
		CompressionInputStream cis = codec.createInputStream(new FileInputStream(new File(filename)));
		// 3.获取输出流
		FileOutputStream fos = new FileOutputStream(new File(filename + ".decoded"));
		// 4.流的对拷
		IOUtils.copyBytes(cis, fos, 1024*1024*5, false);
		// 5.关闭资源
		cis.close();
		fos.close();
	}
}

    即使MapReduce的输入输出文件都是未压缩的文件,仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要在驱动类设置两个属性即可。
    Map输出端采用压缩:

// 开启map端输出压缩
configuration.setBoolean("mapreduce.map.output.compress", true);
// 设置map端输出压缩方式
configuration.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);

    Reduce输出端采用压缩:

// 设置reduce端输出压缩开启
FileOutputFormat.setCompressOutput(job, true);
// 设置压缩的方式
FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class); 

猜你喜欢

转载自blog.csdn.net/H_X_P_/article/details/106120476