【Hadoop学习之MapReduce】_15MR常用数据序列化类型和编程规范

一、MapReduce常用数据序列化类型

Java类型 Hadoop Writable类型
boolean BooleanWritable
byte ByteWritable
int IntWritable
float FloatWritable
long LongWritable
double DoubleWritable
String Text
map MapWritable
array ArrayWritable

二、MapReduce编程规范

一般用户编写的程序分为三个部分:MapperReducerDriver

  1. Mapper阶段

    (1)用户自定义的Mapper要继承自己的父类

    (2)Mapper的输入数据是<K,V>对的形式(<K,V>类型可自定义)

    (3)Mapper中的业务逻辑写在map()方法中

    (4)Mapper的输出数据是<K,V>对的形式(<K,V>类型可自定义)

    (5)map()方法(MapTask进程)对每一个<K,V>调用一次

  2. Reducer阶段

    (1)用户自定义的Reducer要继承自己的父类

    (2)Reducer的输入数据类型对应Mapper的输出数据类型,也是<K,V>

    (3)Reducer的业务逻辑写在reduce()方法中

    (4)ReduceTask进程对每一组相同k的<K,V>组调用一次reduce()方法

  3. Driver阶段

    相当于YARN集群的客户端,用于提交我们整个程序到YARN集群,提交的是封装了MapReduce程序相关运行参数的job对象

发布了30 篇原创文章 · 获赞 30 · 访问量 768

猜你喜欢

转载自blog.csdn.net/qq_40947493/article/details/104197920