MapReduce的源码分析中map端输出的源码分析 - 代码天地

MapReduce的源码分析中map端输出的源码分析

其他 2018-09-25 05:17:03 阅读次数: 0

分区：

只有一个reduce的情况下，partition号为0

分区大有1的情况下，采用hash的方法：

在输入阶段最核心的类是LineRecorderReader()

在输出阶段最核心的类是MapOutputBuffer()

达到80%的时候会溢写磁盘。

mapoutputkey做了三件事：

①：设置缓冲区溢写磁盘的大小80%

②:准备了一个快排比较器，比较器底层看用户定义的，如果用户没有定义，那么就用系统默认的排序算法

③：排序

④:combiner:就是一个微缩版的reduce的实现，combiner实际上集成的是reduce方法

combiner可以设定，必须继承reduce方法

默认情况下，溢写磁盘三次就会触发一次combiner 去执行，其实在溢写磁盘之前的sort阶段，也有一个比较小的combiner

溢写线程：

在这里有一个write方法，默认是（k,v）和p的形式。

在map端的write最终会以序列化的形式溢写在内存缓冲区中。

环形缓冲区：从零的位置开始放key和value，从另一个方向开始放索引，在剩下的部分：

按照赤道分开，继续存放key，value和索引

最终完成首位相接。

交换key，value的位置的时候，可以考虑交换索引的位置。

当达到80%的时候会溢写磁盘，在溢写磁盘之前会又一次sort排序

new map

输出会有一个刷新

shuffle有一个sortandsplit

这才触发combiner

总之：

在map端输出的过程中，首先又一次排序，在排序阶段有一个比较小的combiner，当buffer缓冲区中的大小达到80%的时候，会溢写磁盘，默认3次溢写磁盘之后，会发生combiner，就是在map端的预聚合。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/82824689

MapReduce的源码分析中map端输出的源码分析

MapReduce中map端的源码分析

MapReduce中源码分析（map端及reduce端的过程）

MapReduce中reduce端的源码分析

MapReduce中客户端源码分析

Hadoop源码分析——MapReduce输入和输出

十三、MapReduce--output输出源码分析

分析MapReduce模型源码

MapReduce的源码分析

MapReduce源码分析，Reduce

MapReduce过程源码分析

MapReduce源码分析

MapReduce源码分析总结

MapReduce核心Map Task OutPut源码分析（有对环形缓冲区的详细介绍以及详细的环形缓冲区的源码分析，让你对map输出阶段不在疑惑）

golang map 源码分析

源码分析-Java Map

Map 接口源码分析

Map源码分析

Set、Map源码分析

golang源码分析--map

STL源码分析：map

Map集合————源码分析

Map集合及源码分析

(转)MapReduce源码分析总结

MapReduce 之 Client 源码分析

MapReduce源码解析之Map端的输入输出【小二讲堂】

【转】【java源码分析】Map中的hash算法分析

Hadoop基础---MapReduce及YARN中job提交源码分析

Map集合及HashMap源码分析

sync.Map源码分析

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)