大数据Hadoop学习笔记（四）

其他 2018-10-20 07:16:54 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yuanyi0501/article/details/83031411

MapReduce运行过程

========

step1 ：
- input
  - InputFormat
    - 读取数据
    - 转换成<key, value>
  - FileInputFormat
    - TextInputFormat
step 2:
- map
  - ModuleMapper
  - map(KEYIN , VALUEIN, KEYOUT, VALUEOUT)
    - 默认情况下——>KEYIN ：LongWritable VALUEIN : TEXT
step 3:
- shuffle
- proceess
  - map,output<key, value>
  - 输出output一开始放在memory内存缓冲区
  - 内存满了之后通过spill,溢写到磁盘中，很多文件。写的过程中有两种操作：
    - 分区parttition，基于hash分区
    - 排序sort
  - 输出之后，磁盘存在很多小文件
    - 将小文件合并merge
    - 排序
    - 形成一个大文件——》在map task运行的机器的本地磁盘
      -------------------------------- map结束 ---------------------------------------------
  - reduce任务启动，会到map task运行的机器的本地磁盘上，拷贝要处理的数据
  - 合并。排序
  - 分组group：将相同的key的value放在一起
    -MAP-01
    <hadoop,1>
    ——————<hadoop,2>------->combiner在map端合并key
    <hadoop,1>
    <yarn,1>
    <hive,1>
    -MAP-02
    -MAP-03
    -reduce-01
    a-zA-Z
- reduce-02
  other

总结shuffle过程：

分区partition
排序sort
拷贝copy——用户无法干预
分组group
压缩compress——可设置
合并 combiner map任务端的reduce——可设置
step 4:
- reduce:
  - reduce(KEYIN, VALUEIN,KEYOUT,VALUEOUT)
  - map输出的<key, value>数据类型与reduce输入的<key, value>数据类型一致
step 5：
- output
  - OutPutFormat
- FileOutputFormat
  - TextOutputFormat
    - 每个<key, value>对，输出一行，key和value之间用\t分隔，默认调用key和value的toString()方法

MapReduce调优

reduce task 数量。设置的两种方法：
- mapreduce.job.reduces
- job.setNumReduceTasks(1);
map task 输出压缩
shuffle 参数

猜你喜欢

转载自blog.csdn.net/yuanyi0501/article/details/83031411

大数据Hadoop学习笔记（四）

大数据学习笔记之Hadoop（四）：Hadoop-HA

大数据学习笔记（四）

大数据Hadoop学习笔记（六）

大数据Hadoop学习笔记（三）

大数据Hadoop学习笔记（二）

大数据Hadoop学习笔记（一）

大数据Hadoop学习笔记（五）

大数据学习笔记之初识Hadoop

大数据学习笔记（一）：Hadoop

大数据学习笔记三（Hadoop总结）

大数据学习笔记(一)_Hadoop简述

大数据学习笔记4 - Hadoop的优化与发展（Hadoop 2.0）

Hadoop学习笔记（一）：Hadoop及大数据基本了解

hadoop 大数据笔记

大数据学习_Hadoop

大数据学习笔记四（HDFS）

大数据技术之Hadoop学习(四)——MapReduce

Hadoop学习笔记 (四)

Hadoop学习笔记（四）

Hadoop权威指南-大数据的存储与分析第四版——学习笔记——第2章——1

大数据学习---Hadoop学习

大数据学习笔记（二）-hadoop安装【原创】

大数据学习笔记（三）-hadoop demo 运行【原创】

《Hadoop 权威指南 - 大数据的存储与分析》学习笔记

大数据入门学习笔记（贰）- 初识Hadoop

大数据学习笔记之Hadoop-HDFS

大数据技术学习笔记：Hadoop集群搭建

「大数据学习笔记」1.2 Linux Hadoop的安装与配置

大数据学习笔记之Hadoop（二）：HDFS文件系统

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)