MapReduce理论篇

2.1 Writable序列化

        序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。
        反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。
        Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。

2.1.1 常用数据序列化类型

Java类型	Hadoop Writable类型
boolean	BooleanWritable
byte	ByteWritable
int	IntWritable
float	FloatWritable
long	LongWritable
double	DoubleWritable
string	Text
map	MapWritable
array	ArrayWritable

2.1.2 自定义bean对象实现序列化接口

自定义bean对象要想序列化传输，必须实现序列化接口，需要注意以下7项。
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造
（3）重写序列化方法
（4）重写反序列化方法
（5）注意反序列化的顺序和序列化的顺序完全一致
（6）要想把结果显示在文件中，需要重写toString()，且用”\t”分开，方便后续用
（7）如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序

 // 1 必须实现Writable接口
 public class FlowBean implements Writable {
 
 	private long upFlow;
 	private long downFlow;
 	private long sumFlow;
 	
 	//2 反序列化时，需要反射调用空参构造函数，所以必须有
 	public FlowBean() {
 	super();
 	}
 	
 	/**
 	* 3重写序列化方法
 	* 
 	* @param out
 	* @throws IOException
 	*/
 	@Override
 	public void write(DataOutput out) throws IOException {
 	out.writeLong(upFlow);
 	out.writeLong(downFlow);
 	out.writeLong(sumFlow);
 	}
 	
 	/**
 	* 4 重写反序列化方法 
 	5 注意反序列化的顺序和序列化的顺序完全一致
 	* 
 	* @param in
 	* @throws IOException
 	*/
 	@Override
 	public void readFields(DataInput in) throws IOException {
 	upFlow = in.readLong();
 	downFlow = in.readLong();
 	sumFlow = in.readLong();
 	}
 	
 	 // 6要想把结果显示在文件中，需要重写toString()，且用”\t”分开，方便后续用
 	@Override
 	public String toString() {
 	return upFlow + "\t" + downFlow + "\t" + sumFlow;
 	}
 	
 	 //7 如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序
 	@Override
 	public int compareTo(FlowBean o) {
 	// 倒序排列，从大到小
 	return this.sumFlow > o.getSumFlow() ? -1 : 1;
 	}
 }

大数据——MapReduce基础（MapReduce理论篇）

MapReduce理论篇

2.1 Writable序列化

2.1.1 常用数据序列化类型

2.1.2 自定义bean对象实现序列化接口

猜你喜欢